復旧していない機器の回復メッセージが送信される
いつもフォーラムを参考にさせていただいています。
当方の監視環境にて「復旧していない機器の回復メッセージが送信される」事象があり
原因が良く分からず、困っております。
どなたかご教示いただけませんでしょうか?
(環境:CentOS6.7 zabbix 2.4.6)
■現象
数10台の機器をPing監視している環境(一部機器は停止状態)で、回線断が発生⇒回復。
元々停止状態の機器は回線が復旧してもPingNGの状態のままなので回復メッセージが
送信されないはずなのですが、停止中の機器の回復メッセージが送信されてしまった。
<停止中の機器の状態>
・イベントに回復状態の表示あり。
・ヒストリーのグラフ上では該当時間中もdown(0)の表示のまま。
■トリガー
{host1:icmpping[,,300].count(900,0)}>12
■アクション
トリガーの値=障害
トリガーの深刻度=重度
以上、よろしくお願い致します。
TNK - 投稿数: 4742
アイテムの更新間隔は、何秒に設定していますか?
トリガーで900秒間で12回以上失敗したら障害とみなすとしかなっ
ていないようですので、最新の値が障害であっても、900秒の間で
12回よりも少ない回数しか障害でなかったので回復と判断されたの
だと思われます。
900秒間でのアイテムの値の取得回数とそれぞれの取得タイミング
での値とを照らし合わせてみてください。
kawara - 投稿数: 4
TNKさん
ご回答有難うございます。
アイテムの更新間隔は60秒に設定しています。
そのため、900秒間に15回評価されるので、12回のPingNGの設定は問題がないと
考えていました。
[最新データ]→[グラフ]→[値]でデータの取得タイミングを確認してみたところ
ほぼ、1分間隔でデータが取得できています。
(障害発生時の時間帯のログは既にzabbixの画面上に表示されなくなっており、確認できませんでした)
もし、ご存知でしたら教えてください。
・回線断などでPingNGが多発している場合にデータの取得に遅延が発生する可能性があるのでしょうか。
・また、そのような場合の遅延を回避する方法、又は上記より良いおすすめのトリガーの設定等ございますでしょうか。
15分間継続でPingNGである場合に、障害にし、回復メッセージの誤報を防ぎたいと考えております。
恐れ入りますがご教示いただけますと幸いです。
TNK - 投稿数: 4742
アイテムのタイプが「Zabbixエージェント」であれば、回線断の場
合は、タイムアウトが発生してしまいますので、アイテムの状態が
取得不可となってしまって、再度値を取得しようとリトライするの
は、デフォルトでは600秒以降になってしまうので、アイテムの取
得間隔での値取得はできなくなります。
ただし、今回使用されているアイテムのキーは、icmpping[]とのこ
とですので、シンプルチェックを使用されていると思います。
ですので、icmpping[]でのデフォルトの設定に加えてintervalで指
定されている300ミリ秒を考慮した上での処理時間だけかかります。
詳細は、以下のURLに書かれている情報をご残照ください。
https://www.zabbix.com/documentation/2.4/manual/config/items/itemtypes/s...
アイテムのタイプとして「Zabbixエージェント」を使用した場合の
ような問題は発生しません。
15分間継続してNGの状態であるかを確認されたいのであれば、例え
ば、関数sum()を使用して、15分間の合計値が0であるかをチェック
するようにしてみてはいかがでしょうか?
karnaさんが書かれていたような、正常だとみなされる(=1となる)
回数が0というような条件式でもよいと思います。
karna - 投稿数: 60
NGになると、タイムアウトまで待つことになるので、環境によって遅延が発生することはあり得ます。
また、おすすめできるほど習熟してないのであれですが、
>15分間継続でPingNGである場合に、障害にし、回復メッセージの誤報を防ぎたいと考えております。
ということでしたら、
{host1:icmpping[,,300].count(900,1)}=0
ではどうでしょうか?
kawara - 投稿数: 4
TNK様、karna様
ご回答いただきありがとうございます。
karna様の設定を試してみようと思います。
ありがとうございました。