SMTP service is downの通知について

お世話になっております。

Zabbix 6.4を利用しメールサーバの監視を行っておりますが
最近「SMTP service is down xxx」の通知が来るようになりました。

実際のサーバを確認するとサービスは起動していますし、メールの送受信等にも問題ございません。
アイテム、トリガーは「Template App SMTP Service」を利用して追加したものです。

原因の特定に至らず、対処方法についてアドバイスいただけますと幸いです。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

「Template App SMTP Service」というのは、Zabbix 6,4では無い
ので、以前のバージョンから使われていて、バージョンアップされ
たのだと思います。

恐らく、アイテムとしてnet.tcp.service[]を使用したチェックに
なっていると思いますが、以前は使えていてトリガーイベントも発
生しなかったということであれば、タイムアウトが発生している可
能性が考えられます。

対象のサーバーに負荷がかかっていて応答が遅れたり、ネットワー
ク上でのトラフィック量などによってもタイムアウトは発生する可
能性があります。

タイムアウトが発生しているのであれば、使用しているアイテムに
合わせて、タイムアウト時間を伸ばしてみてください。
アイテムのタイプが、「シンプルチェック」で、アイテムのキーで
net.tcp.service[]を使用しているのであれば、Zabbixサーバーの
Timeoutの設定を調整すればよいはずです。

TNK様

返信が遅くなりすみません。
またアドバイスいただきありがとうございます。

旧バージョンで利用していた稼働サーバが故障し、新たにサーバを用意した際にバージョンアップをしておりました。
その際、取り急ぎ設定内容を引き継いだので見直しができていなかったです。
「Template App SMTP Service」が無いということなので、新たに監視内容を設定したいと思います。

ユーザー TNK の写真

新規にインストールしたら無いだけです。
手元の環境になかったので、具体的なアイテムやトリガーの設定が
わからなかったため、ご自身でどのような設定になっているのかを
確認して頂く必要があります。

ご自身で判断できないのであれば、詳細な情報をご提供ください。

あと、昔のテンプレートでも監視できていたのであれば、そのまま
そのテンプレートを使用してもよいと思います。
今回の場合は、何かの要因でどこかの処理が遅くなったという状況
の変化で発生したのだと予想しています。

ご丁寧にありがとうございます。

元々がzabbix4.0で稼働しており現在は6.4です。

テンプレート「Template App SMTP Service」から
アイテム「SMTP service is running」のシンプルチェックで、キーが「net.tcp.service[smtp]」です。
トリガーの条件式は「max(/●●●/net.udp.service[ntp],#3)=0」という内容です。

現バージョンになってからも監視結果は正常でしたが、先週あたりから値が「0(障害)」が返ってくるようになり障害通知が出てしまいます。
現在も変わらずの状態です。

ユーザー TNK の写真

タイムアウトの調整はされましたか?

「その他の設定パラメータ」画面より、ネットワークタイムアウトおよび接続タイムアウト値を変更してみました。
デフォルト値3s→10sに変更です。

設定箇所が違ってますでしょうか?

ユーザー TNK の写真

Webインターフェースから設定できるのは、Webインターフェースと
Zabbixサーバーとの間の通信だけです。

シンプルチェックなどで使用するタイムアウトの設定は、Zabbixサ
ーバーの設定ファイルである

 zabbix_server.conf

内のTimeoutの値を変更し、zabbix-serverのサービスの再起動を行
うことが必要です。

Zabbix公式のパッケージで、RHELやUbuntuにインストールして使用
されているのであれば、ファイルは以下の場所にあるはずです。
/etc/zabbix/zabbix_server.conf

ありがとうございます。
zabbix_server.confファイル「Option: Timeout」欄にある「Timeout」値を変更で合っておりますか?

デフォルト値がTimeout=3になっているのですが、どの位に設定するものでしょうか?
参考となるものがありましたらご教授いただきたいです。

ユーザー TNK の写真

Timeoutという設定項目ですので、合っていると思います。

Webインターフェースから、対象となっているアイテムの値の取得を
テストしてみてはいかがですか?

例:
 データ収集 -> ホスト -> アイテム -> 対象のアイテムをクリック
 アイテムの設定の下にある「テスト」をクリック
 「値の取得とテスト」をクリック

むやみに長くしすぎても全体のパフォーマンスが低下する恐れがあ
るので、使用されている環境に合わせて調整すべきだと思います。

TNK様

タイムアウト値を3s→10sに変更しテスト実施したところ正常値(1)が返ってくることが確認できました。
パフォーマンス低下の可能性ですが「10s」はどの程度なのでしょう…
様子を見ながらということになりますでしょうか。

色々とアドバイスいただきありがとうございました。

ユーザー TNK の写真

それだけの情報では「どの程度」なのかわかりません。

Zabbixを使用して各種メトリクスを取得しているのであれば、それらを
使用して取得できなくなった前後の変化や、サーバー全体での処理負荷
状態をご自身でご確認ください。

「その他の設定パラメータ」画面より、ネットワークタイムアウトおよび接続タイムアウト値を変更してみました。
デフォルト値3s→10sに変更です。

設定箇所が違ってますでしょうか?