監視対象との疎通復旧時の動作について

こんにちは。

監視対象のサーバと一度疎通が取れなくなった際には、

temporarily disabling Zabbix agent checks on host "ホスト名": host unavailable

とログに表示されると思います。

そして復旧したときには、

enabling Zabbix agent checks on host "ホスト名": host became available

が表示されます。

疎通が取れなくなってしまったときに、各アイテムの値が取れなくなるのは、当たり前なのですが、
復旧したときに、上記のログが出力されているにもかかわらず、
「一部のアイテムのみ」 最新の情報を取得しに行かず、復旧しない現象に悩まされております。

zabbix-server を restart すると正常に取得しに行くようになります。
zabbixの負荷状況(各poller状態やI/O等)を確認しましたが、問題はありません。

同じような現象に遭遇している人はいらっしゃいませんか?
Zabbix バージョン:2.2.7-1

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

アイテムが取得不可であった場合、リトライは通常のアイテムの取
得間隔ではなく、取得不可のアイテム用のリトライ間隔でリトライ
が行われます。
よって、ホストが有効になっても、アイテムの値が取得できるよう
になるまでに時間がかかってしまう場合があります。

取得不可のアイテムの更新間隔は、管理 -> 設定 のプルダウンで
「その他」を選択したときに表示される、

 取得不可アイテムの更新間隔(秒)

で設定します。
デフォルトでは、600だったと思います。

それ以上たってもアイテムの値が取得できないようであれば、別の
障害が発生している可能性が考えられます。

設定 -> ホスト から対象のホストの「アイテム」の部分をクリッ
クしてアイテムの一覧を表示させ、右端のエラー欄の赤い×印のと
ころにマウスのポインタを移動させてみてください。
アイテムの値が取得できない原因が表示されると思います。

よくあるのは、デフォルトの設定のままで、アイテムの値の取得に
3秒以上かかってしまうようになった場合は、タイムアウトが発生
してしまってアイテムの値が取得できなくなります。
そのような場合は、zabbix_server.conf、zabbix_agentd.conf両方
のTimeoutの設定を伸ばしてみてください。
ただし、伸ばせるのは30秒までです。

それ以上の時間がかかってしまうような場合は、cronなどで定期的
に結果をファイルに出力させ、Zabbixからは、その結果ファイルの
内容を確認するような処理にするとか、zabbix_senderを利用する
など、監視方法に工夫が必要となります。