zabbix agent2のエージェント監視の誤検知について
zabbix agent2(アクティブ)でテンプレートとして用意されている、「Zabbix agent ping」を利用して仮想マシン数十台の監視を行っております。
仮想マシンをテストのためすべてシャットダウンし、数十分後起動させた際、ヒストリ上ではデータが agent pingのデータが「1」で取得されているにも関わらず、数台の仮想マシンではダッシュボード上にエラーが表示され、時間が経っても消えません。
こちらどのタイミングおよびどのようなトリガーでアラートが解決するのでしょうか?
シャットダウンした仮想マシンすべてでトリガーの誤検知が発生するわけではない部分も気になっております。
OS
RHEL8.4
Windows Server 2019
トリガー
nodata(/ホスト名/agent.ping,{$AGENT.NODATA_TIMEOUT})=1
Zabbix 5.4.7
TNK - 投稿数: 4719
アイテムの値を取得したときにトリガーの条件式が再評価されます。
継続してアイテムの値を定期的に取得できていますか?
最新データやアイテムの設定を確認してください。
例えば、値の取得が止まっていたり、値の変化がなければ値を取得
しないというような保存前処理が設定されていたりしませんか?
TKC - 投稿数: 24
ありがとうございます。
確認しましたが、保存前処理は何も入力しておりませんでした。
また、グラフの値も再起動を実施した時間帯が途切れている以外は、常に1.0となっており最新でデータが取得されております。
試しに手動で障害のクローズとしたところダッシュボードに再ポップアップはされませんでした。
現在、トリガーで障害発生のみ上記で設定しているのですが、復旧条件もいりますでしょうか?
TNK - 投稿数: 4719
復旧条件式の指定は不要です。
条件式だけ指定されている場合は、条件式を満たさなければトリガ
ーの状態は復旧するようになっています。
ちゃんと直近の値が取得できているのであれば、Zabbixサーバーが
自動的に判断できるはずですが、今回は何らかの問題が発生して状
態が更新されなかった可能性が考えられます。
Zabbixサーバーのログなどで、データベースへのアクセスでのエラ
ー発生などの何らかの問題が発生していなかったかを確認しておい
た方が良いかもしれません。
TKC - 投稿数: 24
ありがとうございます。
その後調査しましたが、原因は特定できませんでした。
他agentの監視方法として、シンプルチェックの「net.tc.service」がありますが、こちらzabbix agentの死活監視として有用なものでしょうか?
シンプルチェックのため、zabbix agentの監視にはもってこいのように思えるのですが…
よろしくお願いします。
TNK - 投稿数: 4719
Zabbixエージェントの正常性の確認のためならば、agent.pingの方
が適切です。
net.tc.serviceというのはないので、恐らくnet.tcp.serviceあた
りだと思うのですが、ポート番号で接続の可否を確認するだけです。
agent.pingであれば、接続してZabbixのプロトコルを使用した通信
まで行って正常性を確認します。
値がちゃんと取れているにも関わらず、アイテムの値の取得間隔や
$AGENT.NODATA_TIMEOUTの値も考慮してnodata()だと判定されるの
は、Zabbixサーバーの状態に何らかの問題が発生していると思われ
ます。
可能であれば、一度、障害が起きていないにも関わらず障害となっ
ているトリガーに関しては、確認してトリガーの状態を正常に戻し
てみてください。