監視対象との疎通復旧時の動作について
こんにちは。
監視対象のサーバと一度疎通が取れなくなった際には、
temporarily disabling Zabbix agent checks on host "ホスト名": host unavailable
とログに表示されると思います。
そして復旧したときには、
enabling Zabbix agent checks on host "ホスト名": host became available
が表示されます。
疎通が取れなくなってしまったときに、各アイテムの値が取れなくなるのは、当たり前なのですが、
復旧したときに、上記のログが出力されているにもかかわらず、
「一部のアイテムのみ」 最新の情報を取得しに行かず、復旧しない現象に悩まされております。
zabbix-server を restart すると正常に取得しに行くようになります。
zabbixの負荷状況(各poller状態やI/O等)を確認しましたが、問題はありません。
同じような現象に遭遇している人はいらっしゃいませんか?
Zabbix バージョン:2.2.7-1
TNK - 投稿数: 4720
アイテムが取得不可であった場合、リトライは通常のアイテムの取
得間隔ではなく、取得不可のアイテム用のリトライ間隔でリトライ
が行われます。
よって、ホストが有効になっても、アイテムの値が取得できるよう
になるまでに時間がかかってしまう場合があります。
取得不可のアイテムの更新間隔は、管理 -> 設定 のプルダウンで
「その他」を選択したときに表示される、
取得不可アイテムの更新間隔(秒)
で設定します。
デフォルトでは、600だったと思います。
それ以上たってもアイテムの値が取得できないようであれば、別の
障害が発生している可能性が考えられます。
設定 -> ホスト から対象のホストの「アイテム」の部分をクリッ
クしてアイテムの一覧を表示させ、右端のエラー欄の赤い×印のと
ころにマウスのポインタを移動させてみてください。
アイテムの値が取得できない原因が表示されると思います。
よくあるのは、デフォルトの設定のままで、アイテムの値の取得に
3秒以上かかってしまうようになった場合は、タイムアウトが発生
してしまってアイテムの値が取得できなくなります。
そのような場合は、zabbix_server.conf、zabbix_agentd.conf両方
のTimeoutの設定を伸ばしてみてください。
ただし、伸ばせるのは30秒までです。
それ以上の時間がかかってしまうような場合は、cronなどで定期的
に結果をファイルに出力させ、Zabbixからは、その結果ファイルの
内容を確認するような処理にするとか、zabbix_senderを利用する
など、監視方法に工夫が必要となります。