Agent側で 10050ポートのダウンを検知したり、ICMPのダウンを検知する。
表題の件、確認させていただければと思います。
[環境]
Zabbixサーババージョン: Zabbix 3.0.31
Zabbixエージェントバージョン:Zabbix 3.0.4
エージェント側OS: Windows server 2012 R2
[問い合わせの監視内容]
最近になってですが、Agent側で 10050ポートのダウンを検知したり、ICMPのダウンを検知します。
実際にAgentが落ちていたわけではないし、10050ポートが制限されていたわけではありません。
ICMPについても応答がないとアラートが出た直後やあるいは、ログインしている最中にアラートが出ることがありますが、
当然サーバ側は落ちていません。
ちなみにこのAgent側で10050ポートがダウンの検知と、ICMPがダウンの検知はそれぞれ同じタイミングではないです。
このため別々の問題かと考えています。
トリガーは以下を利用しています。
・Agent側で10050ポート監視
{server01:net.tcp.service["tcp",,"10050"].last(0)}=0
・ICMP監視
{server01:icmppingloss[,5,1000,64,5000].last(0)}=100
ICMPについては、検知するタイミングでCPUが瞬間的に100%になっていました。
おそらく負荷が高かったため、ICMPの応答が返せなかったと思われます。
Agent側で10050ポートがダウンの検知については、負荷が高かったりすることもなく現在原因が不明です。
イベントログ等でもエラーは出たりしていませんでした。
Zabbixサーバ側で問題ないか確認したところ、以下のエラーを多数検知していました。
on host "server01" failed: first network error, wait for 15 seconds
これはZabbixサーバ側とエージェント側の通信タイムアウトによるエラーです。
これが出るということは、通信上不安定で、本件のAgent側で10050ポートのダウンを検知したり、
ICMPのダウンを検知したりするときはありますでしょうか?
TNK - 投稿数: 4737
Zabbixのデフォルトの設定のままであれば、3秒でタイムアウトし
てしまうので、Zabbixサーバーからの要求に対して3秒以内に応答
が無いと対象のアイテムの値が取得できない状態となってしまいま
す。
通信が不安定であれば、他のサーバーでも同様の問題が発生してい
たりしませんか?
Windowsサーバーのネットワークインターフェースに問題があれば、
イベントログに何らかの情報が出力されているはずです。
問題が発生していないのであれば、単純に対象のサーバーの処理が
たまたま遅かっただけなのではないでしょうか。
負荷は高くなかったとのことですが、何をもって負荷は高くなかっ
たと判断されましたか?
例えば、CPUの使用率以外にもWindowsサーバーの応答が遅くなる可
能性はあると思うので、多少タイムアウトを伸ばして様子を見てみ
るのがよいのではないかと思います。
四羽 - 投稿数: 19
TNK 様
負荷が高くなかった理由は、CPU、メモリ、ネットワークトラフィック、
アクセスログによるアクセス数等を見て判断しています。
いずれも検知した時に、それぞれが高負荷ではありませんでした。
いずれにしても、いただいた回答をもとに少し様子を見ます。
ご回答ありがとうございました。