お世話になっております。
Zabbix 6.4を利用しメールサーバの監視を行っておりますが 最近「SMTP service is down xxx」の通知が来るようになりました。
実際のサーバを確認するとサービスは起動していますし、メールの送受信等にも問題ございません。 アイテム、トリガーは「Template App SMTP Service」を利用して追加したものです。
原因の特定に至らず、対処方法についてアドバイスいただけますと幸いです。
「Template App SMTP Service」というのは、Zabbix 6,4では無い ので、以前のバージョンから使われていて、バージョンアップされ たのだと思います。
恐らく、アイテムとしてnet.tcp.service[]を使用したチェックに なっていると思いますが、以前は使えていてトリガーイベントも発 生しなかったということであれば、タイムアウトが発生している可 能性が考えられます。
対象のサーバーに負荷がかかっていて応答が遅れたり、ネットワー ク上でのトラフィック量などによってもタイムアウトは発生する可 能性があります。
タイムアウトが発生しているのであれば、使用しているアイテムに 合わせて、タイムアウト時間を伸ばしてみてください。 アイテムのタイプが、「シンプルチェック」で、アイテムのキーで net.tcp.service[]を使用しているのであれば、Zabbixサーバーの Timeoutの設定を調整すればよいはずです。
TNK様
返信が遅くなりすみません。 またアドバイスいただきありがとうございます。
旧バージョンで利用していた稼働サーバが故障し、新たにサーバを用意した際にバージョンアップをしておりました。 その際、取り急ぎ設定内容を引き継いだので見直しができていなかったです。 「Template App SMTP Service」が無いということなので、新たに監視内容を設定したいと思います。
新規にインストールしたら無いだけです。 手元の環境になかったので、具体的なアイテムやトリガーの設定が わからなかったため、ご自身でどのような設定になっているのかを 確認して頂く必要があります。
ご自身で判断できないのであれば、詳細な情報をご提供ください。
あと、昔のテンプレートでも監視できていたのであれば、そのまま そのテンプレートを使用してもよいと思います。 今回の場合は、何かの要因でどこかの処理が遅くなったという状況 の変化で発生したのだと予想しています。
ご丁寧にありがとうございます。
元々がzabbix4.0で稼働しており現在は6.4です。
テンプレート「Template App SMTP Service」から アイテム「SMTP service is running」のシンプルチェックで、キーが「net.tcp.service[smtp]」です。 トリガーの条件式は「max(/●●●/net.udp.service[ntp],#3)=0」という内容です。
現バージョンになってからも監視結果は正常でしたが、先週あたりから値が「0(障害)」が返ってくるようになり障害通知が出てしまいます。 現在も変わらずの状態です。
タイムアウトの調整はされましたか?
「その他の設定パラメータ」画面より、ネットワークタイムアウトおよび接続タイムアウト値を変更してみました。 デフォルト値3s→10sに変更です。
設定箇所が違ってますでしょうか?
Webインターフェースから設定できるのは、Webインターフェースと Zabbixサーバーとの間の通信だけです。
シンプルチェックなどで使用するタイムアウトの設定は、Zabbixサ ーバーの設定ファイルである
zabbix_server.conf
内のTimeoutの値を変更し、zabbix-serverのサービスの再起動を行 うことが必要です。
Zabbix公式のパッケージで、RHELやUbuntuにインストールして使用 されているのであれば、ファイルは以下の場所にあるはずです。 /etc/zabbix/zabbix_server.conf
ありがとうございます。 zabbix_server.confファイル「Option: Timeout」欄にある「Timeout」値を変更で合っておりますか?
デフォルト値がTimeout=3になっているのですが、どの位に設定するものでしょうか? 参考となるものがありましたらご教授いただきたいです。
Timeoutという設定項目ですので、合っていると思います。
Webインターフェースから、対象となっているアイテムの値の取得を テストしてみてはいかがですか?
例: データ収集 -> ホスト -> アイテム -> 対象のアイテムをクリック アイテムの設定の下にある「テスト」をクリック 「値の取得とテスト」をクリック
むやみに長くしすぎても全体のパフォーマンスが低下する恐れがあ るので、使用されている環境に合わせて調整すべきだと思います。
タイムアウト値を3s→10sに変更しテスト実施したところ正常値(1)が返ってくることが確認できました。 パフォーマンス低下の可能性ですが「10s」はどの程度なのでしょう… 様子を見ながらということになりますでしょうか。
色々とアドバイスいただきありがとうございました。
それだけの情報では「どの程度」なのかわかりません。
Zabbixを使用して各種メトリクスを取得しているのであれば、それらを 使用して取得できなくなった前後の変化や、サーバー全体での処理負荷 状態をご自身でご確認ください。
アカウント名 jac-zabbix
Zabbix関連
TNK - 投稿数: 4730
「Template App SMTP Service」というのは、Zabbix 6,4では無い
ので、以前のバージョンから使われていて、バージョンアップされ
たのだと思います。
恐らく、アイテムとしてnet.tcp.service[]を使用したチェックに
なっていると思いますが、以前は使えていてトリガーイベントも発
生しなかったということであれば、タイムアウトが発生している可
能性が考えられます。
対象のサーバーに負荷がかかっていて応答が遅れたり、ネットワー
ク上でのトラフィック量などによってもタイムアウトは発生する可
能性があります。
タイムアウトが発生しているのであれば、使用しているアイテムに
合わせて、タイムアウト時間を伸ばしてみてください。
アイテムのタイプが、「シンプルチェック」で、アイテムのキーで
net.tcp.service[]を使用しているのであれば、Zabbixサーバーの
Timeoutの設定を調整すればよいはずです。
jac-zabbix - 投稿数: 7
TNK様
返信が遅くなりすみません。
またアドバイスいただきありがとうございます。
旧バージョンで利用していた稼働サーバが故障し、新たにサーバを用意した際にバージョンアップをしておりました。
その際、取り急ぎ設定内容を引き継いだので見直しができていなかったです。
「Template App SMTP Service」が無いということなので、新たに監視内容を設定したいと思います。
TNK - 投稿数: 4730
新規にインストールしたら無いだけです。
手元の環境になかったので、具体的なアイテムやトリガーの設定が
わからなかったため、ご自身でどのような設定になっているのかを
確認して頂く必要があります。
ご自身で判断できないのであれば、詳細な情報をご提供ください。
あと、昔のテンプレートでも監視できていたのであれば、そのまま
そのテンプレートを使用してもよいと思います。
今回の場合は、何かの要因でどこかの処理が遅くなったという状況
の変化で発生したのだと予想しています。
jac-zabbix - 投稿数: 7
ご丁寧にありがとうございます。
元々がzabbix4.0で稼働しており現在は6.4です。
テンプレート「Template App SMTP Service」から
アイテム「SMTP service is running」のシンプルチェックで、キーが「net.tcp.service[smtp]」です。
トリガーの条件式は「max(/●●●/net.udp.service[ntp],#3)=0」という内容です。
現バージョンになってからも監視結果は正常でしたが、先週あたりから値が「0(障害)」が返ってくるようになり障害通知が出てしまいます。
現在も変わらずの状態です。
TNK - 投稿数: 4730
タイムアウトの調整はされましたか?
jac-zabbix - 投稿数: 7
「その他の設定パラメータ」画面より、ネットワークタイムアウトおよび接続タイムアウト値を変更してみました。
デフォルト値3s→10sに変更です。
設定箇所が違ってますでしょうか?
TNK - 投稿数: 4730
Webインターフェースから設定できるのは、Webインターフェースと
Zabbixサーバーとの間の通信だけです。
シンプルチェックなどで使用するタイムアウトの設定は、Zabbixサ
ーバーの設定ファイルである
zabbix_server.conf
内のTimeoutの値を変更し、zabbix-serverのサービスの再起動を行
うことが必要です。
Zabbix公式のパッケージで、RHELやUbuntuにインストールして使用
されているのであれば、ファイルは以下の場所にあるはずです。
/etc/zabbix/zabbix_server.conf
jac-zabbix - 投稿数: 7
ありがとうございます。
zabbix_server.confファイル「Option: Timeout」欄にある「Timeout」値を変更で合っておりますか?
デフォルト値がTimeout=3になっているのですが、どの位に設定するものでしょうか?
参考となるものがありましたらご教授いただきたいです。
TNK - 投稿数: 4730
Timeoutという設定項目ですので、合っていると思います。
Webインターフェースから、対象となっているアイテムの値の取得を
テストしてみてはいかがですか?
例:
データ収集 -> ホスト -> アイテム -> 対象のアイテムをクリック
アイテムの設定の下にある「テスト」をクリック
「値の取得とテスト」をクリック
むやみに長くしすぎても全体のパフォーマンスが低下する恐れがあ
るので、使用されている環境に合わせて調整すべきだと思います。
jac-zabbix - 投稿数: 7
TNK様
タイムアウト値を3s→10sに変更しテスト実施したところ正常値(1)が返ってくることが確認できました。
パフォーマンス低下の可能性ですが「10s」はどの程度なのでしょう…
様子を見ながらということになりますでしょうか。
色々とアドバイスいただきありがとうございました。
TNK - 投稿数: 4730
それだけの情報では「どの程度」なのかわかりません。
Zabbixを使用して各種メトリクスを取得しているのであれば、それらを
使用して取得できなくなった前後の変化や、サーバー全体での処理負荷
状態をご自身でご確認ください。
jac-zabbix - 投稿数: 7
「その他の設定パラメータ」画面より、ネットワークタイムアウトおよび接続タイムアウト値を変更してみました。
デフォルト値3s→10sに変更です。
設定箇所が違ってますでしょうか?