Problem name: Zabbix agent on Zabbix server is unreachable for 5 minutesの対応方法

Problem started at 02:12:51 on 2022.09.27
Problem name: Zabbix agent on Zabbix server is unreachable for 5 minutes
Host: Zabbix server
Severity: Average

Original problem ID: 772

こちらのメッセージがZabbixより送られてきました。
Zabbix-serverのサービスはActiveではあるのですが、登録されている監視対象サーバー群の1台は情報取得できていないように見受けられます。
原因と対策についてさらに調査を行いたいのですが、確認すべきポイントや原因についてご存じでしたらアドバイスを頂きたいです。

宜しくお願い致します。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

記載頂いた

 「Zabbix agent on Zabbix server is unreachable for 5 minutes」

というトリガーイベントは、「Zabbix server」という名前のホス
トとして登録しているホスト上にインストールしたZabbixエージェ
ントにZabbixサーバーから5分以上接続できない時に発生します。

使用されているZabbixのバージョンがわかりませんが、Zabbixサー
バーの各プロセスのbusy率を確認したり、どのホストのどのアイテ
ムの値が取得できていないのかを確認してください。

Zabbixサーバーの特定のプロセスのbusy率が高いのであれば、監視
を行っている規模に合わせて、その役割のプロセスの起動数を増や
すなどの対応が必要になります。

これ以上は、情報が少なすぎてわかりません。

何ができて何ができないのか、Zabbixサーバーの状態はどうなって
いるのか、ログファイルにも何らかのエラーや警告が出力されてい
ないのかなど、ご自身で使用されている環境とその状態をまずは把
握するようにしてください。

ユーザー W-P の写真

コメント頂きありがとうございます。

OSはUbuntu 18.04.6、PostgreSQL 10.8、Zabbixのversionは4.0.33になります。

発生時刻付近のログを確認しますと、以下のtimeoutが多数記録されており、Zabbixの管理画面でも障害欄に該当のアラートが残っています。(添付参照)
Sep 27 02:11:51 akri-ubuntu1 systemd-timesyncd[786]: Timed out waiting for reply from 91.189.91.157:123 (ntp.ubuntu.com).
Sep 27 02:12:01 akri-ubuntu1 systemd-timesyncd[786]: Timed out waiting for reply from 185.125.190.56:123 (ntp.ubuntu.com).
Sep 27 02:14:19 akri-ubuntu1 systemd-timesyncd[786]: Timed out waiting for reply from 91.189.94.4:123 (ntp.ubuntu.com).

その他、topコマンドの結果的にも特に高い数値は見られませんでした。
top - 22:44:47 up 20:37, 1 user, load average: 0.03, 0.02, 0.00
Tasks: 260 total, 1 running, 179 sleeping, 0 stopped, 0 zombie
%Cpu(s): 0.5 us, 0.3 sy, 0.0 ni, 99.0 id, 0.2 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 4039576 total, 106184 free, 681680 used, 3251712 buff/cache
KiB Swap: 4039676 total, 4037872 free, 1804 used. 2912744 avail Mem

※監視対象サーバーの1台については、再度確認したところ
正しく最新の情報が取得されていましたのでZabbix Serverと監視対象との疎通は問題ありませんでした。

ユーザー W-P の写真

Zabbix internal process busyの状況です。
数値を見ますと、こちらも特に高い値はありませんでした。

ユーザー kaeru の写真

w-p様

最初に見るグラフとしては
"Zabbix data gathering process busy %"のpoller prossesの使用率かと思います。
このポーラの使用率が100%を超えている場合はデータ収集が間に合ってない=ZabbixAgentPingが設定された時間通りに取得出来ず
TNK様がご指摘されている通り対象アラートが発生する可能性が有ります。

ただ、追加で記載頂いたログは恐らくsyslogのものと思われますが、
当該メッセージはNTPサーバに接続出来ていないメッセージとなるため、
障害発生時刻にNTPサーバへの接続が出来ない状態だったのであれば、
ZabbixサーバとZabbixエージェント間に閉じた問題ではなく、
ネットワーク自体に問題があったのではないかと推察されます。

ユーザー W-P の写真

kaeru様

アドバイス頂き、ありがとうございます。
Zabbix data gathering process busyのpoller data collector processesを確認しました。
数値的には高い値はないようです。

また、ログについてもsyslogからの抜粋になります。
こちらは現在も継続してログされており、こちらを解消できれば当アラートのステータスもResolvedになるかと思っています。

ただ、添付ログのようにsystemctl -l status systemd-timesyncdによる同期状態ステータスはActiveですが、Timed outは出力されている状況です。
91.189.94.4:123 (ntp.ubuntu.com)と185.125.190.56:123 (ntp.ubuntu.com)に対するpingは成功しています。
設定ファイル(/etc/systemd/timesyncd.conf)についても、Ubuntu18.04ではデフォルトでntp.ubuntu.comが使用されるので修正する必要もなさそうです。

他に疎通面で解決に向けて確認すべきポイント等ございませんでしょうか。

ユーザー kaeru の写真

対象のNTPエラーが該当時間帯だけでなく、恒常的に出ているのであれば事象とは関係ないのではないかと思います。
状況が不明のためなんともいえませんが以下はどうでしょうか。

 ・最初の添付画像"Zabbix_problem.PNG"を見ると
  ZabbixServer自身のZabbixAgentでunreachable for 5 minutesが発生しているように見える。
  当該のホスト:ZabbixServerとZabbixAgentは同じホスト内にいるか

 ・現在状況として、疎通が出来ているのか。
  一時的な事象なのか、現在も継続中か

 ・発生状況の前後にサーバ再起動等の操作は行っていないか

また、確認ログとしてzabbix_server.logや、障害発生ホストのzabbix_agent.logもあわせて確認してみてください。

ユーザー W-P の写真

ご指摘ありがとうございます。
NTPのエラーについては、24日のsyslogまで遡ったところ、継続してログされていたため、本事象との関連性はない可能性が高くなってきました。

・最初の添付画像"Zabbix_problem.PNG"を見ると
ZabbixServer自身のZabbixAgentでunreachable for 5 minutesが発生しているように見える。
当該のホスト:ZabbixServerとZabbixAgentは同じホスト内にいるか

⇒はい、ZabbixServerとZabbixAgentは同じホスト内にいます。

・現在状況として、疎通が出来ているのか。
 一時的な事象なのか、現在も継続中か

⇒現在、ZabbixAgentのステータスがinactive (dead)になっているため、ZabbixServerとZabbixAgent間の疎通は出来ていないと思われます。
こちらは、一度systemctl start zabbix-agentコマンドにてserviceが立ち上がるか確認してみると宜しいでしょうか。

xxxxxxxxxx:~$ systemctl status zabbix-agent
● zabbix-agent.service - Zabbix Agent
Loaded: loaded (/lib/systemd/system/zabbix-agent.service; disabled; vendor preset: enabled)
Active: inactive (dead)

・発生状況の前後にサーバ再起動等の操作は行っていないか

⇒サーバー側での操作は行っておりません。

zabbix_server.logでは以下のような各監視対象機器に対するactive checksの送信失敗が多数出ており、現在も継続してログされていました。
ただ、Zabbixの「最新データ」より、各監視対象機器のデータは問題なく取得・表示されているようです。

2184:20220929:002048.626 cannot send list of active checks to "[監視対象IPアドレス]": host [監視対象ホスト名] not found

zabbix_agentd.logの方は該当時刻付近(2022.09.27 02:12:51)特に出力はありませんでした。

xxxxxxxxxx:/var/log/zabbix$ sudo cat zabbix_agentd.log
xxxxxxxxxx:/var/log/zabbix$ sudo cat zabbix_agentd.log.1
5622:20220926:170710.177 Got signal [signal:15(SIGTERM),sender_pid:23696,sender_uid:115,reason:0]. Exiting ...
5622:20220926:170710.329 Zabbix Agent stopped. Zabbix 4.0.33 (revision 42b522f1f0).
xxxxxxxxxx:/var/log/zabbix$ sudo zcat zabbix_agentd.log.2.gz
5631:20220819:211027.641 active check configuration update from [127.0.0.1:10051] started to fail (ZBX_TCP_READ() timed out)
5631:20220819:211127.650 active check configuration update from [127.0.0.1:10051] is working again
xxxxxxxxxx:/var/log/zabbix$ sudo zcat zabbix_agentd.log.3.gz
5631:20220525:215604.736 active check configuration update from [127.0.0.1:10051] started to fail (ZBX_TCP_READ() timed out)
5631:20220525:215704.746 active check configuration update from [127.0.0.1:10051] is working again
xxxxxxxxxx:/var/log/zabbix$

ユーザー kaeru の写真

「Zabbix agent on Zabbix server is unreachable for 5 minutes」は
TNK様がご指摘されている通り、ZabbixエージェントにZabbixサーバーから5分以上接続できない時に発生します。
従って、Zabbixエージェントがinactive (停止)状態であれば、当該のアラートが出てくるのは当然となります。

>zabbix_server.logでは以下のような各監視対象機器に対するactive checksの送信失敗が多数出ており、現在も継続してログされていました。
>ただ、Zabbixの「最新データ」より、各監視対象機器のデータは問題なく取得・表示されているようです。
ZabbixAgentが停止しており、「Zabbix agent on Zabbix server is unreachable for 5 minutes」が発生しているのは、
ZabbixServerホスト [127.0.0.1]のみです。

各監視対象機器は「Zabbix agent on Zabbix server is unreachable for 5 minutes」が発生していないため、
ZabbixServerホスト以外のデータ取得に問題が無いのは道理にかないます。

結論としては、記載頂いている通りZabbixServerホスト のZabbixAgentを起動後、
アラートが解消されたか、エラーログが無くなったかご確認ください。

ユーザー W-P の写真

Zabbix Agentサービスの起動を行い、Zabbix管理画面上の該当アラートも解消されたことを確認できました。
Agentサービスが停止した原因についてはログ等からは不明ではありますが、このまま様子を見ようと思います。

TNK様 kaeru様
本件、いろいろとご指摘等々頂き、ありがとうございました。