障害検知の運用について

お世話になっております。

ZabbixServerバージョン:3.4

以下に、監視環境を記載いたします。
・サーバーを{icmpping.max(#3)}=0で死活監視
 ※サーバーは毎日3:00に再起動
・特定サービスを{service_state[サービス名].prev(0)}<>0で死活監視
・障害イベント生成モード「単一」
・アクション条件を7:30~21:00まで設定、メール通知
・トリガーの深刻度はそれぞれで設定

上記設定環境だと、7:30~21:00までの間に障害が発生した場合、
想定通りにアクションが動作します。

しかし、サーバー再起動のタイミングで、監視対象のサービスがうまく
起動していなかったり、サーバー自体が起動していない場合だと、既に
ステータスが障害のままなので、アクションが動作しません。

7:30より前に障害が発生していた場合、7:30からのアクションを実行
させることは可能でしょうか?
やはり、障害イベント生成モードを「複数」にするしかないのでしょうか?

ちなみに、監視サーバー台数が多く、サーバーによって再起動の時間も
違うため、アクション開始時間を再起動の直後に設定することは考えて
おりません。

以上、よろしくお願いいたします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー yk_taiko の写真

(他のアクションもある場合はちょっと考えなければいけませんが...)
【ping とサービス監視だけ】であれば、アクション条件では時間帯の絞り込みをせず、
「データ取得あり」のメンテナンスで "21:00~翌07:30" を設定してしまうのも手かと思います。
(トリガーステータスが変化したものはメンテナンス明けにイベントが再作成されるため)

ユーザー チャーミー の写真

回答ありがとうございます。

トリガーステータスが変化したものはメンテナンス明けにイベントが再作成されるため
⇒アクション条件の時間帯を絞り込む場合、メンテナンス期間中に検知したもの
 は全て7:30からのアクションで実行されますでしょうか?

ちなみにメンテナンスの「データ取得あり」を”21:00~翌07:30”の時間帯で設定した場合、
意図的にサーバーを再起動しているものも取得されてしまいますよね?
(意図的なものか、異常なものかの区別がつかないような。。。)

メンテナンスの「データ取得あり」の仕様(どのようなデータが取得されるか)もご存知
でしたらご教示願います。

ユーザー yk_taiko の写真

07:30 にイベントが「再作成」されるため、そのタイミングでアクション判定が行われます。
07:30~の条件のアクションであれば動くと思います。

再作成されるイベントは、「現在のトリガーの状態」のイベントです。

メンテナンス期間中に「正常→障害→正常」と遷移したトリガーであれば、
メンテナンス明け(07:30)に【正常】のイベントが作成されます。 (通常はアクション実行されないように設定されているかと思います)

期間中に「正常→障害」となり正常に戻らないトリガーは、
メンテナンス明けに【障害】のイベントが作成されます。

死活やサービス監視であれば、意図的に実行してもその後正常な状態に戻るものかと思います。

※あくまで死活やサービス監視のみの想定でお話しています。
 ログ監視等では、複雑になります。

尚、「データ取得あり」では、通常通り(監視間隔の通り)データ取得・トリガー判定・イベント作成が行われます。
アクションで「メンテナンス=期間外」が設定されていると、アクションの条件から除外されます。(デフォルトで条件に付いているかと思います)

※メンテナンスのマニュアル
https://www.zabbix.com/documentation/3.4/manual/maintenance
https://www.zabbix.com/documentation/2.2/jp/manual/maintenance (バージョン違い 日本語版)

ユーザー チャーミー の写真

試してみます。
ありがとうございました。