サービスダウン障害検知時の継続時間設定について
いつもお世話になっております。
Zabbix Server 3.4.3
Zabbix Proxy 3.4.3
*エージェントレスで監視を実施しております。
現在、Zabbix Proxy経由でお客様のサーバを監視しております。
net.tcp.service[tcp,,80]にて監視を実施しトリガーはダウン時に即検知するように
設定しました。
頻繁にダウンを検知することから調査したところ、お客様側で不定期にwebサービスの
再起動を実施していることがわかり、即検知ではなく5分以上ダウンが継続したら
発報するようにしてほしいとの要望があり、当フォーラム等で参考に
お客様用検証環境にて設定してみましたが、うまくいきません。
現象
例
17:00 apache停止
17:02 zabbixダッシュボードにてapacheのダウン検知
※web画面反映には多少のタイムラグがあることは認識しております。
やりたいこと
17:00 apache停止
17:05(6) zabbixダッシュボードにてapacheのダウン検知
下記のトリガー設定方法が間違っておりますでしょうか。
-----------------------------------------------
アイテム更新間隔1分
数値
値のマッピング:Service state
トリガー式
{サーバ名:net.tcp.service[tcp,,80].count(300,0)}>1
よろしくお願い致します。
fripper - 投稿数: 495
下記のような条件ではいかがでしょうか?
{サーバ名:net.tcp.service[tcp,,80].max(#5)}#1
過去5回ぶんの最大値を調べて「正常動作」を示す値(1)でなかった場合に障害検知
=1度や2度の異常値は無視して、5回連続で異常(0)だった場合のみ障害として検知する
障害として検知後、1度でも正常値が取得できれば「正常」に戻る