Zabbix agent on <ホスト名> is unreachable for 5 minutesの発生原因について
いつも参考にさせていただいております。
標題の障害がたまに原因がわからず発生してしまいます。
そして、障害状況を確認するとzabbixエージェントはちゃんと立ち上がっていました。
以下URLの事象と同じだと思います。
http://www.zabbix.jp/node/3277
①本障害について
この障害は5分間zabbixエージェントがとまっているときに発生するんですよね?
また、zabbixエージェントが立ち上がっている状態でもこの障害が発生してしまう原因などがあったら教えてください。
②対処について
過去のフォーラムなどを確認し、以下に問題ないことは確認しました。
また、zabbixサーバとクライアントサーバの双方で関連しそうなログは見つかっておりません。
(1)監視対象先サーバのzabbix_agentd.conf
Server=zabbixサーバIP
ServerActive=zabbixサーバIP
(2)時間同期
監視対象先サーバ
Mon Jun 20 11:53:21 JST 2016
zabbixサーバ
2016年 6月 20日 月曜日 11:53:21 JST
以上、ご教授御願いいたします。
-------------サーバー情報(zabbix共通)-------------
zabbixバージョン2.4.7
サーバーOSCentOS release 6.7 (Final)
----------------------------------------------------
TNK - 投稿数: 4760
ZabbixサーバーもZabbixエージェントも正常に機能していて、最新
データを確認しても、agent.pingの値が正しく(1 = Up)でアイテム
に設定された取得間隔通りに値を継続して取得できていれば、トリ
ガーは発生しないはずです。
デフォルトの「Template OS Linux」のままであれば、nodata(5m)
で判定しているので、5分間以上連続で値が取得できなかった場合
に障害のトリガーが発生します。
対象のホストのトリガーが発生した時刻前後の最新データの値を確
認してみてください。
あと、時刻に関しては、ntpなどを利用して自動的に調整している
環境であるならば、トリガーの発生前後に時刻調整が行われていな
いかOS自体のログなども確認してみてください。
RYT - 投稿数: 52
TNK様
ご返答ありがとうございます。
>対象のホストのトリガーが発生した時刻前後の最新データの値を確
>認してみてください。
正常に値が取れていました。
zabbixエージェントも正常に上がっていました。
>あと、時刻に関しては、ntpなどを利用して自動的に調整している
>環境であるならば、トリガーの発生前後に時刻調整が行われていな
>いかOS自体のログなども確認してみてください。
時刻調整に関するログは確認できていません。
調査を続けたいと思います。
また、監視センターにのみ障害通知が送信されており気づけませんでしたが、
本件の現象が起こるときに以下の障害も起こっていました。
【トリガー名】
less than 25 free in the text history cache
何か関係あるでしょうか?
以上、ご教授よろしくお願いいたします。
RYT - 投稿数: 52
本件、以下の対策を行いました
①発生する障害
less than 25 free in the text history cache
②対策方法
「zabbix.conf」の「HistoryTextCacheSize」を変更
16M(デフォルト)⇒32M
③結果
「Zabbix text write cache, % free」のグラフが100%で安定し、
障害は発生しなくなっているようです。
対応はしたのですがこの障害発生と本件の「Zabbix agent on <ホスト名> is unreachable for 5 minutes」の障害の関連性がわかりません。
また、zabbixエージェントの障害が発生しているのにデータを確認するとちゃんとあがっていました。
これらの事象でわかる方がいたらご教授お願いいたします。