Agent pingでunreachable⇒復旧が多発する
お世話になっております。
Agent ping監視においてunreachable⇒復旧が頻繁に繰り返されている状況です。
原因・対象方法についてお力添え頂けますでしょうか?
○環境
・Zabbix Version:3.0 LTS
・ZabbixサーバーOS:RedHat Linux7.3
・監視対象サーバーOS:Windows Srerver 2012
※サーバーはどちらもAWS-EC2インスタンスにて作成しております。
○事象
監視対象サーバーのAgent ping監視 がunreachable⇒復旧を頻繁に繰り返す。
なお、unreachable⇒復旧までの間隔は毎回5秒ほどで、再びunreachableが発生するまでの間隔は毎回異なります。
また、同じ監視テンプレートを用いて監視を行っているサーバーが他にありますが、本事象は発生していません。
○監視設定情報 ※デフォルトから変更していません。
・テンプレート
Template App Zabbix Agent
・アイテム
Agent Ping
アイテムキー:agent.ping
更新間隔:300秒
・トリガー
Zabbix agent on{HOST.NAME}is unreachable for 5 minutes
条件式:{<ホスト名>:agent.ping.nodata(5m)}=1
他に必要な情報ございましたら提示させて頂きますので、ご記載頂ければと思います。
fripper - 投稿数: 495
http://www.zabbix.jp/node/4091
このスレッドでTNK氏が回答なさっていることと同じ原因です
agent.ping アイテムの結果は 300sec おきに更新される設定とされていますが
nodata での評価は、そのタイミングと無関係に 30secおきに実施されます
(nodata 設定が特殊なだけです
通常はアイテムに新しい値が格納された時点で、トリガーが判定されます)
アイテム値の収集・格納タイミングが数秒間前後すると
「過去300secに新規データが格納されていない」瞬間に「nodata」が評価されてしまい
「障害検知」となってしまうことが起こります
nodata 側のパラメータを 5m → 6m 等にするか、アイテムの収集間隔を 240sec 等にすることで
若干のタイミングのズレ程度なら許容できるようになり、誤検知は減るかと思います
centriver - 投稿数: 2
ご回答ありがとうございます。
上記参考に設定し、動作確認致します。