障害と復旧を同じタイミングで検出

2019/03/13 - 20:25 (水) egp - 投稿数: 6

日本Zabbixユーザー会フォーラム

お世話になります。
下記現象について、もしどなたか追加の確認項目があれば、教えて頂けないでしょうか

●監視対象サーバ
- ZabbixaAgentのバージョン：3.4.6
- WindowsServer2016
- AWS

●Zabbixサーバ
- Zabbix3.4.9
- RHEL 7.5
- AWS 対象サーバと同じサブネット

●問題
テンプレートの通り、下記トリガーを設定し「Zabbixエージェントに接続できない状態が5分続いた状態」を検出しようとしております。
{<ホスト>:agent.ping.nodata(5m)}=1

ただ実際に試したところ、週2,3レベルで検出の1分後に復旧メールが飛んでおります。
例：
コンソールでの「時間」　内容　アラートメールに記載した {EVENT.TIME}
21:38:00 　警告　 21:38:00
21:39:59 　復旧　21:38:00 ←復旧時実行内容で指定する {EVENT.TIME}とは、復旧ではなく検出のタイミングを指す？

Zabbixのログを見てみると、該当時間にも下記出力がありましたが、”failed~”はこの時間帯に限らず毎日毎時間発生しているようです。
[root@ip-*-*-* zabbix]# cat /var/log/zabbix/zabbix_server.log-20190310 | grep 20190308:21 |grep agent.ping | grep <ホスト>
1387:20190308:212856.527 Zabbix agent item "agent.ping" on host "<ホスト>" failed: first network error, wait for 15 seconds
1387:20190308:214356.620 Zabbix agent item "agent.ping" on host "<ホスト>" failed: first network error, wait for 15 seconds
1417:20190308:214856.152 Zabbix agent item "agent.ping" on host "<ホスト>" failed: first network error, wait for 15 seconds
1419:20190308:215356.028 Zabbix agent item "agent.ping" on host "<ホスト>" failed: first network error, wait for 15 seconds

なぜ警告と復旧が同時のタイミングで検出されるのか、
もし、どなたか心当たり、もしくは確認箇所があればご教示頂けないでしょうか。

また、過去投稿から類似すると思われるトピックを参照しました。
http://www.zabbix.jp/node/3783
こちらの回避策として「アクションのステップ間隔を少し長めにするなどの調整」とでておりました。知識不足でお恥ずかしいのですが、
アクションの設定欄にある「デフォルトのアクション実行ステップの間隔」を指すのでしょうか。こちらは「1h」としております。

どうぞよろしくお願いいたします。

ログイン（登録）してコメントを投稿

2019/03/14 - 10:42 (木)
masak - 投稿数: 20

下記内容を見てみると理由がわかるかと思いますよ
https://www.zabbix.com/documentation/3.4/manual/config/notifications/act...

ログイン（登録）してコメントを投稿

2019/03/15 - 21:45 (金)
egp - 投稿数: 6

masakさん

参考資料ありがとうございます。
Example 6の通り、各マクロの指定に際して{EVENT.RECOVERY.TIME}と指定すべきところを、
復旧の文面でも{EVENT.TIME}と指定していたため、発生時刻が表示されていたと理解できました。

まず再設定を実施し、挙動を確認してみたいと思います。
ご教示ありがとうございました。

ログイン（登録）してコメントを投稿

日本Zabbixユーザー会

障害と復旧を同じタイミングで検出

コメント表示オプション

egpさんについて

新しいフォーラムトピック

活発なフォーラムトピック

ユーザーログイン

Twitter