zabbix agent2のエージェント監視の誤検知について

zabbix agent2(アクティブ)でテンプレートとして用意されている、「Zabbix agent ping」を利用して仮想マシン数十台の監視を行っております。

仮想マシンをテストのためすべてシャットダウンし、数十分後起動させた際、ヒストリ上ではデータが agent pingのデータが「1」で取得されているにも関わらず、数台の仮想マシンではダッシュボード上にエラーが表示され、時間が経っても消えません。

こちらどのタイミングおよびどのようなトリガーでアラートが解決するのでしょうか?

シャットダウンした仮想マシンすべてでトリガーの誤検知が発生するわけではない部分も気になっております。

OS
 RHEL8.4
 Windows Server 2019
トリガー
 nodata(/ホスト名/agent.ping,{$AGENT.NODATA_TIMEOUT})=1

Zabbix 5.4.7

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

アイテムの値を取得したときにトリガーの条件式が再評価されます。

継続してアイテムの値を定期的に取得できていますか?
最新データやアイテムの設定を確認してください。
例えば、値の取得が止まっていたり、値の変化がなければ値を取得
しないというような保存前処理が設定されていたりしませんか?

ユーザー TKC の写真

ありがとうございます。
確認しましたが、保存前処理は何も入力しておりませんでした。
また、グラフの値も再起動を実施した時間帯が途切れている以外は、常に1.0となっており最新でデータが取得されております。
試しに手動で障害のクローズとしたところダッシュボードに再ポップアップはされませんでした。

現在、トリガーで障害発生のみ上記で設定しているのですが、復旧条件もいりますでしょうか?

ユーザー TNK の写真

現在、トリガーで障害発生のみ上記で設定しているのですが、復旧条件もいりますでしょうか?

復旧条件式の指定は不要です。
条件式だけ指定されている場合は、条件式を満たさなければトリガ
ーの状態は復旧するようになっています。

ちゃんと直近の値が取得できているのであれば、Zabbixサーバーが
自動的に判断できるはずですが、今回は何らかの問題が発生して状
態が更新されなかった可能性が考えられます。
Zabbixサーバーのログなどで、データベースへのアクセスでのエラ
ー発生などの何らかの問題が発生していなかったかを確認しておい
た方が良いかもしれません。

ユーザー TKC の写真

ありがとうございます。

その後調査しましたが、原因は特定できませんでした。

他agentの監視方法として、シンプルチェックの「net.tc.service」がありますが、こちらzabbix agentの死活監視として有用なものでしょうか?

シンプルチェックのため、zabbix agentの監視にはもってこいのように思えるのですが…

よろしくお願いします。

ユーザー TNK の写真

Zabbixエージェントの正常性の確認のためならば、agent.pingの方
が適切です。

net.tc.serviceというのはないので、恐らくnet.tcp.serviceあた
りだと思うのですが、ポート番号で接続の可否を確認するだけです。
agent.pingであれば、接続してZabbixのプロトコルを使用した通信
まで行って正常性を確認します。

値がちゃんと取れているにも関わらず、アイテムの値の取得間隔や
$AGENT.NODATA_TIMEOUTの値も考慮してnodata()だと判定されるの
は、Zabbixサーバーの状態に何らかの問題が発生していると思われ
ます。

可能であれば、一度、障害が起きていないにも関わらず障害となっ
ているトリガーに関しては、確認してトリガーの状態を正常に戻し
てみてください。