お世話になります。
ZABBIX2.2.3 でシステム監視を運用しています。
複数のSMTPサーバーを以下の条件式で監視していますが、
{e4xxxx1:net.tcp.service[smtp].last()}=0
監視タイプはシンプルチェックです。
一部のサーバにおいて、不定期にサービスを再起動する必要がありそのつどアラームが発生します。
再起動にかかる時間は10秒程度です。
失敗回数の設定等、何らかの対策によりアラーム発報を回避したいと思います。
どのような条件式を記述するのがよいかご教授いただければと思います。
よろしくお願い致します。
fripper - 投稿数: 495
現状のチェックの間隔によって、最良の設定は変わると思いますが‥
1)30秒おき程度でチェックしていて、
1度の取得ミス・停止状態を示す値なら、再起動のタイミングと合致したものとしてとりあえず無視、
2度以上連続して停止を示す値なら、トリガー発報
{e4xxxx1:net.tcp.service[smtp].min(#2)}=0
1度の失敗は無視して、次のチェック時の「最新値」と「前回値」で最小値を用いた判定をしていますので
結果的に、意図しないサービス停止が起きた場合の検知も、それだけ遅れてしまうことになります。
停止発生後、最低でも1分以上経過(2回分のデータ取得が発生)してから検知される、ということです
sat - 投稿数: 78
fripper 様
早速、この設定で運用してみたいと思います。
ありがとうございました。