大量のアラートおよび復旧の発報改善方法について
現在、Zabbixで稼働しているサーバを監視しております。
監視内容は、各アイテムに閾値を設定した監視と、一定時間内にデータの取得がなければ、アラートを上げる設定をしております。
定期的に、アラートと復旧の連絡が同じタイミングで発報する事象が発生しております。
認識といたしましては、監視間隔(8m)とnodataを判定する時間(16m)で十分に間隔をあけておりますので、問題ないと認識しております。
本事象の原因および解決方法をご存じでしたら、ご教授いただけますでしょうか。
調査にあたり、追加で必要な情報がございましたら、ご連絡ください。
可能な範囲で情報を共有させていただきます。
<設定内容>
◆アイテム
アイテムキー:vfs.fs.size[c:\,pused]
監視間隔:8m
◆トリガー(1アイテムに2つ設定しております。)
トリガー①:{hostname:vfs.fs.size[c:\,pused].last()}>=95
トリガー②:{hostname:vfs.fs.size[c:\,pused].nodata(960)}=1
<暫定対応>
サーバにインストールしているZabbixAgentを再起動いたしますと、事象が改善されました。
<構築環境>
Zabbixサーバ:AWSのEC2(CentOS)
監視対象:WindowsServer2012R2
TNK - 投稿数: 4754
どちらのトリガーの障害と復旧が同じタイミングとなるのですか?
nodata()を使用している方のトリガーであるならば、イベントが発
生した前後のアイテムの値を取得した時刻を確認してください。
nodata()を使用した場合、アイテムの値を取得したタイミングとは
別に、30秒間隔で定期的に条件式の判断が行われるのでご注意くだ
さい。
kb - 投稿数: 2
ご返信いただき、ありがとうございます。
>どちらのトリガーの障害と復旧が同じタイミングとなるのですか?
トリガー②が同じタイミングに障害と復旧になります。
>イベントが発生した前後のアイテムの値を取得した時刻を確認してください。
今度、再発時に確認いたしますが、
アラートが大量に発報された際の、アイテムの値を取得した時刻は、
設定しているアイテムの取得間隔から大幅に遅れていたと記憶しております。
nodataに設定している時間以上の遅れはあったかと思います。
同時に障害と復旧の連絡がくる理由に関しては、理解できました。
ありがとうございます
このまま、nodataのトリガーは使用していこうと考えておりますので、、
再発時の対応方法もしくは、再発しないための方法をご存じでしたら、ご教授いただきたく存じます。