zabbix プロキシとのSSL通信について
現在、proxyを使用しての監視を実施しております。
その構成で原因不明の多数ノード同時アラート発報事象が発生しております。
詳細につきましては下記のとおりです。
■構成
zabbix server ← zabbix proxy → zabbix agent
プロキシとサーバ間はプロキシのアクティブモード
プロキシとサーバ間は暗号化設定(証明書)
プロキシとエージェント間は通常のパッシブ
プロキシの監視はエージェントを導入し、アクティブモードで監視。暗号化は証明書
■zabbixバージョン
3.2.1
■発生事象
1ヶ月に1度ほど監視対象から同時多発的にZabbix agentのPing疎通不可が発生(即復旧する)
ただ、proxyからのアラートは発報していない
■事象詳細
発生時に下記ログが出力されている
zabbix-server
failed to accept an incoming connection: from ***.***.***.***(proxyのGIP): TLS connection has been closed during handshake::
zabbix-proxy
Unable to connect to the server [***.***.***.***(serverのGIP)]:10051 [TCP successful, cannot establish TLS to [[***.***.***.***(serverのGIP)]:10051]: connection closed by peer]. Will retry every 1 second(s)
Unable to connect to the server [***.***.***.***(serverのGIP)]:10051 [TCP successful, cannot establish TLS to [[***.***.***.***(serverのGIP)]:10051]: SSL_connect() timed out]
■調査状況
ネットワーク周りも調査しておりますが、今の所異常が見受けられず。
同様の事象で詳細把握さている方がおりましたら、詳細ご教示ください。
Yasumi - 投稿数: 380
ネットワークの原因ではなく、一時的な負荷によるエラーだと推測します。
ZabbixServerとProxyのインターナルプロセスの負荷率を確認してみてください。
また、OSのCPU/Memory負荷率など。
あとは、タイムアウト値の拡張を検討してみてください。
tamagon - 投稿数: 3
yasumiさん
確認ありがとうございます。
>ZabbixServerとProxyのインターナルプロセスの負荷率を確認してみてください。
>また、OSのCPU/Memory負荷率など。
こちらZabbixServer Proxyともに負荷率は通常時と変わらず低い状態でした
リソースの負荷状況も、通常と変わらず低い状態でした。
また、タイムアウト値につきましては、ZabbixServer Proxy agentすべて30秒で設定されております(デフォでは3秒)
Yasumi - 投稿数: 380
なるほど。
この辺りは専門ではないので、エラー内容をZabbix supportでも調べてみました。
あまり目ぼしい情報は私では確認できませんでしたが、直接調べてみるのもいいかもしれません。
https://support.zabbix.com/projects/ZBX/issues
1ヶ月に1度ほどの頻度の説明がつかないので、通信の問題ではないと推測しましたが
エラー内容から「証明書の認証エラー」を原因としてみるなら、構築の部分で設定に問題がないか確認する必要がありますし、
「TLSプロトコルのバージョン不一致」を原因としてみるなら、Zabbix ServerとProxyのOSで、TLSの対応バージョンを調べる必要があるかと思います。
対処療法として提案できるのは、タイムアウト値のさらなる拡張や、
Zabbix ServerとProxyの再起動、もしくはバージョンの最新化でしょうか。
tamagon - 投稿数: 3
yasumiさん
回線周りも現在は真っ白とは言い難いので、
切り分けとして経路変更・回線変更実施予定です。
それで解消しないようでしたら、暗号化の無効化を実施してみようと思います。
諸々ご確認ありがとうございました。