ZabbixServer―ZabbixProxy―Azure(WindowsServer)の監視疎通断について

ローカルにあるZabbixServerから、Internet(SSL-VPN)を通じて
Azure環境の監視をする場合に、以下の問題が発生しています。
原因や解決策など知恵をお貸しいただけないでしょうか。

※2020/06/01 以下の問題点を編集・修正致しました。

◆ZabbixProxy―WindowsServerのicmp ping Down検知
ZabbixServer―ZabbixProxyの疎通に断が発生した際、
WindowsServerのPing is Downイベントを生成し、約1時間後に復旧する。
PingはあくまでZabbixProxyのホストに設定されたアイテムであり、
ZabbixServer―ZabbixProxy間の疎通とは関連性がないように思えますが、
このような動作は仕様なのでしょうか。
(Proxy―WindowsServer間はPingOKであることを手動で確認済です)

◆構成
ローカル           Azure上     Azure上
|ZabbixServer|--(Internet)--|ZabbixProxy|-----|WindowsServer(zabbix_agentd)|

◆各バージョン情報
ZabbixServer:4.0.15 ※OS:RHEL7.7
ZabbixProxy:4.0.20 ※OS:RHEL7.8
zabbix_agentd:4.0.15

◆WindowsServerのzabbix_agentd.conf 任意設定した項目
EnableRemoteCommands=1
Server=[ZabbixServerのIP]
ServerActive=[ZabbixServerのIP]
Hostname=[Azure上のWindowsサーバ名]
RefreshActiveChecks=60
Timeout=10

その他必要な情報がありましたら、追記致しますので
ご指摘いただけますと幸いです。

宜しくお願い致します。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー Yasumi の写真

いまいち構成的によく分からない部分があるのですが、
ZabbixServer⇒WindowsServer(WS)へは直接通信はつながらず、ZabbixProxy⇒WSがつながる、という構成でしょうか。
ぱっと聞くと、ZabbixProxy⇒WSがPing疎通断になれば、Agent情報も拾えないと思いますが、何か違うでしょうか。

いずれにしても、監視不可時のZabbixログを確認いただければと思います。

あと思いつく点としては、時刻同期が取れていない、などでしょうか。
https://www.sodo-shed.com/archives/9951

ユーザー amuy の写真

Yasumi様
構成図のレイアウトが崩れておりました。申し訳ありません。
調査を続ける中で本件の投稿と、実際の問題点が異なっていることが判り、
投稿内容を編集・修正致しました。

>ZabbixServer⇒WindowsServer(WS)へは直接通信はつながらず、ZabbixProxy⇒WSがつながる、という構成でしょうか。
書いて頂いた通りです。
ZabbixServerはZabbixProxyとのみ通信しています。
(WSの監視は全てProxy経由に設定しています。)

>いずれにしても、監視不可時のZabbixログを確認いただければと思います。
zabbix_server.logには、特にそれらしきログは見当たりませんでした。
zabbix_proxy.logに以下のメッセージが繰り返し書き込まれていました。
-------------------
6194:20200531:034235.478 Unable to connect to the server [ZabbixServer IP]:10051 [cannot connect to [[ZabbixServerIP]:10051]: [110] Connection timed out]. Will retry every 1 second(s)
6194:20200531:034306.562 Connection restored.
-------------------
やはりネットワークに何か問題があると考えた方が良いでしょうか。

>あと思いつく点としては、時刻同期が取れていない、などでしょうか。
>https://www.sodo-shed.com/archives/9951
OSの再起動はしていませんが、今後の参考に致します。

ユーザー Yasumi の写真


「約1時間後に復旧する」という部分から、ZabbixServer側でアイテムが「取得不可」になっていると推測します。
※「約1時間後に復旧する」のは、ZabbixServerの設定に「取得不可のアイテムの更新間隔」という項目があり、
 こちらの設定に従って、時間経過により復旧していると推測しています。


ZabbixProxyを利用したことがないので仕様を勘違いしていたら恐縮なのですが、
ZabbixServer―ZabbixProxyの疎通に断が発生すると、ZabbixProxy配下にある監視対象ホストの監視ができなくなる、で合っていますでしょうか。
であれば、ZabbixServer―ZabbixProxyの疎通に断が発生した際に、配下の監視対象のアラートが発報しないように
トリガーに「依存関係」を設定するのは手だと思います。


純粋にネットワークの問題というよりは、副次的な要因に感じます。
Zabbixインターナルプロセスの負荷値はどのようになっていますでしょうか。
また、タイムアウトエラーが出ているようなので、Timeoutの値を広げるのも一度試してみてください。


各バージョンが異なっているようなので、いずれの環境も最新のバージョンにあげてみるのも手かと思います。