zabbix障害検知アクションについて
zabbixで監視しているサーバからzabbixエージェント監視に関する障害の通知が表示されました。
対象サーバのzabbix-agentd.logに下記のようなエラーを確認しました。
active check configuration update from [xxx.xxx.xxx.xxx:10051] started to fail (ZBX_TCP_READ() timed out)
active check configuration update from [xxx.xxx.xxx.xxx:10051] is working again
6分ほどで正常に検知できているようなのですが、zabbixマネジメントコンソールで設定しているグラフの対象時間を確認しましたが、
グラフも特に途切れているといった状態ではありませんでした。
(アクションログではエラー通知のログが残っている)
原因特定をしたいと考えておりますが、その他のログには特に異常や問題となり得そうな情報が無かったため、
何か助言いただければ幸いです。
グラフの状況との差異についても併せてご教授いただければと存じます。
【構成】
OS:Amazon Linux
zabbix: 3.4.8
yk_taiko - 投稿数: 184
サーバでアラートが発生したり、エージェントにログが記載されていることを考えると、
それぞれのソフトとしては正常に動作しており、
OS より下のレイヤが原因となってサーバとエージェント間で一時的に通信ができなくなった可能性が
あるのでは...と思います。
エージェントは通信できない際に Buffer にためておき、
通信できるようになったタイミングでまとめて送信するため、
グラフの抜けが無いものと考えます。
(zabbix_agentd.conf のBufferSize で最大値設定)
msy - 投稿数: 24
回答頂きありがとうございます。
エージェントの動きについて把握出来ました。
一度通信経路で調査をしてみたいと思います。
ちなみにBufferSizeはコメントアウトされておりました。
fripper - 投稿数: 495
転記されているログは、
========
active check configuration update from [xxx.xxx.xxx.xxx:10051] started to fail (ZBX_TCP_READ() timed out)
active check configuration update from [xxx.xxx.xxx.xxx:10051] is working again
========
Zabbixエージェント側が、「log/logrt等のアイテム」「Zabbixエージェント(アクティブ)として設定されているアイテム」
自分が自発的にチェックして、結果をサーバ側へ報告すべきアイテムの一覧を
サーバ側に問合せて再取得する処理(agentd.conf のRefreshActiveChecks間隔で実施)の際に
エージェント側からサーバ側に接続できなかった際に記録されるものです
一時的に、エージェント→サーバ方向の通信がうまくいかない時間帯があったのだと思います
msy - 投稿数: 24
回答頂きありがとうございます。
エージェントの動きについて把握出来ました。
一度通信経路で調査をしてみたいと思います。