NTPサービスの監視について
いつもお世話になっております。
NTPサービスの監視について質問させて頂きます。
使用環境
Zabbix Server:3.0.7
OS:CentOS 7.2
Zabbix Agent:3.0.7
OS:ubuntu 14.0.4
現在の監視設定
・ntpdの死活監視
タイプ:シンプルチェック
キー:net.udp.service[ntp]
・123ポートのUDP疎通
タイプ:シンプルチェック
キー:net.udp.service[ntp,,123]
トリガーはlast関数で最新の値が0だった場合にアラート検知
上記設定で監視を行っているのですが、アラート発生する頻度が高いです。
障害は次回更新間隔で必ず復旧しており、監視対象のNTPサーバ上で
psコマンドでntpdの状態を確認しても起動時間から落ちた様子はありません。
Zabbix ServerとNTPサーバは離れた場所に設置されています。
UDPはパケットのロスが発生しても再送は行はないという仕様が関係しているのでしょうか。
ntpdの死活監視についてはタイプをZabbixエージェントに、キーをproc.numにして、
プロセス数が0の場合にアラート検知する設定に変更しようかを検討中です。
123ポートについては外部からアクセスが可能であるかを監視したいので、
Zabbixエージェントでの監視ではサーバ内部からのアクセスしか監視できない認識です。
外部からアクセス可能かを判断できる情報が取得できるアイテムキーは他にありますでしょうか。
以上、よろしくお願い致します。
fripper - 投稿数: 495
>トリガーはlast関数で最新の値が0だった場合にアラート検知
監視間隔にもよるとは思いますが‥
max(#5)=0 などの条件で発動するトリガーにすることで
5回連続で失敗したときにトリガーで障害として検知
障害として検知後、1回でも成功した場合、その時点で復旧
のような動作にすることもできるかと思います
サービスは正常稼働しているのにパケットロスしてしまった場合など、誤検知してしまうのは防げる代わりに
本当にサービスが落ちている場合の障害検知は遅れてしまうことになります
dondoc - 投稿数: 86
fripper様
返信が遅くなり申し訳ないです。
回答頂きありがとうございます。
監視間隔は30秒としています。
障害発生の次回更新で必ず復旧しているので、
max使うならmax(#2)=0で設定してみようかと思います。
自分で考えていたのはcount(30,0)=2でした。
上記で設定すれば本当にサービスが落ちている場合でも
検知の遅れはそんなにないので。