zabbix プロキシとのSSL通信について

現在、proxyを使用しての監視を実施しております。
その構成で原因不明の多数ノード同時アラート発報事象が発生しております。
詳細につきましては下記のとおりです。

■構成
zabbix server ← zabbix proxy → zabbix agent
プロキシとサーバ間はプロキシのアクティブモード
プロキシとサーバ間は暗号化設定(証明書)
プロキシとエージェント間は通常のパッシブ
プロキシの監視はエージェントを導入し、アクティブモードで監視。暗号化は証明書

■zabbixバージョン
3.2.1

■発生事象
1ヶ月に1度ほど監視対象から同時多発的にZabbix agentのPing疎通不可が発生(即復旧する)
ただ、proxyからのアラートは発報していない

■事象詳細
発生時に下記ログが出力されている

zabbix-server
failed to accept an incoming connection: from ***.***.***.***(proxyのGIP): TLS connection has been closed during handshake::

zabbix-proxy
Unable to connect to the server [***.***.***.***(serverのGIP)]:10051 [TCP successful, cannot establish TLS to [[***.***.***.***(serverのGIP)]:10051]: connection closed by peer]. Will retry every 1 second(s)
Unable to connect to the server [***.***.***.***(serverのGIP)]:10051 [TCP successful, cannot establish TLS to [[***.***.***.***(serverのGIP)]:10051]: SSL_connect() timed out]

■調査状況
ネットワーク周りも調査しておりますが、今の所異常が見受けられず。
同様の事象で詳細把握さている方がおりましたら、詳細ご教示ください。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー Yasumi の写真

ネットワークの原因ではなく、一時的な負荷によるエラーだと推測します。

ZabbixServerとProxyのインターナルプロセスの負荷率を確認してみてください。
また、OSのCPU/Memory負荷率など。

あとは、タイムアウト値の拡張を検討してみてください。

ユーザー tamagon の写真

yasumiさん

確認ありがとうございます。

>ZabbixServerとProxyのインターナルプロセスの負荷率を確認してみてください。
>また、OSのCPU/Memory負荷率など。

こちらZabbixServer Proxyともに負荷率は通常時と変わらず低い状態でした
リソースの負荷状況も、通常と変わらず低い状態でした。

また、タイムアウト値につきましては、ZabbixServer Proxy agentすべて30秒で設定されております(デフォでは3秒)

ユーザー Yasumi の写真

なるほど。
この辺りは専門ではないので、エラー内容をZabbix supportでも調べてみました。
あまり目ぼしい情報は私では確認できませんでしたが、直接調べてみるのもいいかもしれません。
https://support.zabbix.com/projects/ZBX/issues

1ヶ月に1度ほどの頻度の説明がつかないので、通信の問題ではないと推測しましたが
エラー内容から「証明書の認証エラー」を原因としてみるなら、構築の部分で設定に問題がないか確認する必要がありますし、
「TLSプロトコルのバージョン不一致」を原因としてみるなら、Zabbix ServerとProxyのOSで、TLSの対応バージョンを調べる必要があるかと思います。

対処療法として提案できるのは、タイムアウト値のさらなる拡張や、
Zabbix ServerとProxyの再起動、もしくはバージョンの最新化でしょうか。

ユーザー tamagon の写真

yasumiさん

回線周りも現在は真っ白とは言い難いので、
切り分けとして経路変更・回線変更実施予定です。

それで解消しないようでしたら、暗号化の無効化を実施してみようと思います。

諸々ご確認ありがとうございました。