複数ホストのagent.ping監視でトリガー発報が発生した原因について
お世話になっております。
agent.pingの監視をアクティブチェックで、1分間隔に行い、値を取得しております。
トリガーは、120秒応答がなければ、トリガー発報という条件を設定しております。
先日、複数の監視対象ホストでほぼ同時刻に、agent.pingの監視でトリガー発報(16:32頃~16:55頃)が発生しました。
トリガー発報前に、監視対象やzabbixサーバが正常稼働している事は確認しております。
発生した事とZabbixの動作が異なっており、現状、なぜそういう事が起きたのか分からない状況で困っております。
【発生した事】
1.zabbixサーバを16:44、17:13頃の計2回停止しておりますが、トリガーが発報する16:35より前には停止していません。
2.zabbixのダッシュボード内の障害ウィジェットを障害発生時間帯に確認しておりましたが、その際、agent.pingの障害通知はありませんでした。
※監視データ>障害では、agent.pingの障害の履歴がありました。
3.トリガー発報のあった複数のホストで、障害発生時間帯のagent.pingのグラフも確認しましたが、その時間帯にデータの欠損(グラフが途切れていない、値1)はありませんでした。
4.通知アクションはトリガーにマッチ後、即時メール通知する設定になっているのですが、agent.pingエラー発生(16:32頃)の通知メールを受信したのが
障害発生直後ではなく、約20分程後(16:56頃)であった。また、同じタイミグで復旧の通知メールも受信。
メール本文内には{EVENT.DATE}-{EVENT.TIME}を記載するようにしているのですが、この日時はagent.pingエラーが発生した日時であった。
※メールのソースで確認したところ、Zabbixがアクションで通知を行った日時がメールの受信日時と同じであり、
メールサーバ側で滞留していた可能性はないと考えております。
5.上記4.の中には、過去に発生した同エラーの通知メールも含まれておりました。
※だいたい数カ月前発生時のエラーがなぜか通知された形となります。
現状、発生した事と調べた事は、以上となりますが、発生原因について、何かわかりましたら、ご教授頂けないでしょうか。
また、確認すべき設定等があれば、合わせてご教授頂けないでしょうか。
TNK - 投稿数: 4742
Zabbixサーバーのログを確認してください。
障害ウィジェットに関しては、時間帯を指定するなどして、直近の
ものだけではなく、過去の時間もみれるようフィルタ設定を行って
確認するようにしてください。
ダッシュボードのウィジェットは、定期的に更新されているだけで、
イベントが発生した時に更新されるとは限りません。短時間に障害
から復旧に状態が変化していた場合は、すぐに正常なイベントが表
示されるようになっていたという可能性も考えられます。
また、トリガーイベント発生時刻前後の最新データのグラフではな
く値もタイムスタンプとともに確認してみてください。
ついでになりますが、使用されているZabbixのバージョンもお教え
ください。
shimabukuro - 投稿数: 4
ご返答ありがとうございます。
ご指示のありました内容について、確認致しました。
確認結果は以下となりますので、お手数をおかけしますが、ご確認お願い致します。
>>Zabbixサーバーのログを確認してください。
■zabbix_server.log
・zabbixサーバを停止させた時間(16:44、17:13頃)に、「Zabbix Server stopped」の記載があり、停止時間とのズレはありませんでした。
・agent.pingエラー(16:32頃)に関する記載はありませんでした。
・過去に発生したagent.pingエラーの通知メールに関する記載は下記が関係していると思われますが、末尾の「outside history storage period」は、
何を意味しておりますでしょうか。
また、どのような場合にこのような記載がされるのでしょうか。
3545:20220406:164434.021 item "●●トリガー発報のあったホスト●●:agent.ping" value timestamp "2021.12.14 00:26:12" is outside history storage period
■トリガー発報のあったホストのzabbix_agentd.log
・zabbixサーバを停止した時間(16:44、17:13頃)と一致しているActiveCheck失敗の記載がありましたが、16:32頃のagent.pingエラーに関する記載はありませんでした。
(16:44以前の記載なし)
>>トリガーイベント発生時刻前後の最新データのグラフではなく値もタイムスタンプとともに確認してみてください。
トリガー発生時刻前後の16:20~18:00頃まで確認したところ、データが欠けることなく、1分おきに値1が記録されておりました。
>>使用されているZabbixのバージョンもお教えください。
Zabbix Server 5.0.12
Zabbix Agent 5.0.12
shimabukuro - 投稿数: 4
お世話になっております。
確認結果を上記に記載させて頂きましたが、こちらの確認はいかがでしょうか。
お手数をおかけしますが、よろしくお願い致します。
今後の調査等に対して、ご助言だけでも頂けるとありがたいです。
TNK - 投稿数: 4742
「outside history storage period」と出力されたのは、それに対
応するアイテムの星取の保存期間を過ぎてしまっていて参照できな
かったということだと思います。
なぜ昨年の12月の障害情報が残っていたのか不明ですが、その残っ
てしまっていた情報のせいでトリガーのイベントが発生した可能性
が考えられます。
そのログに出力された日時のあたりのログを確認すれば、何らかの
情報を確認することはできるかもしれません。
shimabukuro - 投稿数: 4
お世話になっております。
ご連絡遅れまして、申し訳ございません。
TNK様、ご回答ありがとうございました。
回答内容について、承知致しました。