Agent側で 10050ポートのダウンを検知する。
表題の件で確認です。
[環境]
Zabbixサーババージョン: Zabbix 3.0.31
Zabbixエージェントバージョン:Zabbix 3.0.4
エージェント側OS: Windows server 2012 R2
[問い合わせの監視内容]
Zabbixサーバからエージェント側に以下の監視をしています。
アイテムキー: net.tcp.service["tcp",,"10050"]
監視Type: Simple check
いわゆる10050が停止していないかを監視しています。
[質問内容]
最近この監視でアラートが反応します。
実際にアラートが出たときに、エージェント側をサーバから監視できていないかをZabbixサーバのグラフから見ても欠損しているように見えません。
エージェントのOS側でイベントログを見てもエラーはありません。
Zabbix agent ログを見てもエラーはありません。
たまにこの監視で同様の事象が起きることはないでしょうか?
その場合、原因を特定するために確認すべきポイントとかはないでしょうか?
同じZabbixサーバから100台以上監視していますが、この問題が確認できているのは1台のエージェントだけです。
誤検知であれば他のエージェント側でも発生しそうですが、1台だけです。
何か情報はありませんでしょうか?
Yasumi - 投稿数: 380
トリガー設定を教えてください。
グラフ欠損していないのであれば、「値が取得できていない」状態と思われます。
※タイムアウトなど
四羽 - 投稿数: 19
Yasumi様
トリガー設定は以下になります。
{server01:net.tcp.service["tcp",,"10050"].last(0)}=0
グラフも貼り付けました。
9/1 20:14頃、10050ポートが落ちたように見えていますが、
その他の監視は正常にできています。
特段リソースに問題ないように見受けられます。
お手数ですがご見解をいただけると幸いです。
以上 宜しくお願い致します。
Yasumi - 投稿数: 380
監視対象サーバの何らかの原因で
監視対象サーバのポート10050がDownしているように見えているのだと思います。
※原因まではこの情報からは判断できません
回避策として、下記のトリガー設定を提案します。
取得値が二回連続で0になった場合に発報させます。
{server01:net.tcp.service["tcp",,"10050"].count(#2,0,"eq")}>1
四羽 - 投稿数: 19
ご回答ありがとうございました。
少し様子を見たいと思います。
四羽 - 投稿数: 19
すみません、本件ですが、そもそもSimple check はICMPのようにご検知として出てしまうことがあるものでしょか?
例えばTCPを用いた監視であれば、応答確認をするのでご検知というのはありえません。
しかし、Simple checkだとその可能性が出るものかご見解をいただけると幸いです。
Yasumi - 投稿数: 380
ちょっと言葉足らずでしたね。
最初の返答に書いていますが、
タイムアウト時間までに応答がないとダウンと判断されます。