障害と復旧を同じタイミングで検出
お世話になります。
下記現象について、もしどなたか追加の確認項目があれば、教えて頂けないでしょうか
●監視対象サーバ
- ZabbixaAgentのバージョン:3.4.6
- WindowsServer2016
- AWS
●Zabbixサーバ
- Zabbix3.4.9
- RHEL 7.5
- AWS 対象サーバと同じサブネット
●問題
テンプレートの通り、下記トリガーを設定し「Zabbixエージェントに接続できない状態が5分続いた状態」を検出しようとしております。
{<ホスト>:agent.ping.nodata(5m)}=1
ただ実際に試したところ、週2,3レベルで検出の1分後に復旧メールが飛んでおります。
例:
コンソールでの「時間」 内容 アラートメールに記載した {EVENT.TIME}
21:38:00 警告 21:38:00
21:39:59 復旧 21:38:00 ←復旧時実行内容で指定する {EVENT.TIME}とは、復旧ではなく検出のタイミングを指す?
Zabbixのログを見てみると、該当時間にも下記出力がありましたが、”failed~”はこの時間帯に限らず毎日毎時間発生しているようです。
[root@ip-*-*-* zabbix]# cat /var/log/zabbix/zabbix_server.log-20190310 | grep 20190308:21 |grep agent.ping | grep <ホスト>
1387:20190308:212856.527 Zabbix agent item "agent.ping" on host "<ホスト>" failed: first network error, wait for 15 seconds
1387:20190308:214356.620 Zabbix agent item "agent.ping" on host "<ホスト>" failed: first network error, wait for 15 seconds
1417:20190308:214856.152 Zabbix agent item "agent.ping" on host "<ホスト>" failed: first network error, wait for 15 seconds
1419:20190308:215356.028 Zabbix agent item "agent.ping" on host "<ホスト>" failed: first network error, wait for 15 seconds
なぜ警告と復旧が同時のタイミングで検出されるのか、
もし、どなたか心当たり、もしくは確認箇所があればご教示頂けないでしょうか。
また、過去投稿から類似すると思われるトピックを参照しました。
http://www.zabbix.jp/node/3783
こちらの回避策として「アクションのステップ間隔を少し長めにするなどの調整」とでておりました。知識不足でお恥ずかしいのですが、
アクションの設定欄にある「デフォルトのアクション実行ステップの間隔」を指すのでしょうか。こちらは「1h」としております。
どうぞよろしくお願いいたします。
masak - 投稿数: 20
下記内容を見てみると理由がわかるかと思いますよ
https://www.zabbix.com/documentation/3.4/manual/config/notifications/act...
egp - 投稿数: 6
masakさん
参考資料ありがとうございます。
Example 6の通り、各マクロの指定に際して{EVENT.RECOVERY.TIME}と指定すべきところを、
復旧の文面でも{EVENT.TIME}と指定していたため、発生時刻が表示されていたと理解できました。
まず再設定を実施し、挙動を確認してみたいと思います。
ご教示ありがとうございました。