エスカレーション設定時のアクションについて

アクション実行条件に該当した時にステップを有効にしてアラートを出すようにしています。

ある条件に合致してから5分毎にメールが届くように設定していたのですが、条件に合致しなくなってリカバリーメッセージが届いたのですが、以降もリカバリーメッセージが届き続けます。

過去のフォーラムに同様の事象があり、その時はトリガーの値=障害がアクション実行条件に含まれていなかったことが問題だったとありました。

http://www.zabbix.jp/node/712

小生の場合も同様にトリガーの値が含まれていなかったために設定を足したのですがそれでも依然としてリカバリーメッセージが届きます。停止させるにはどのようにすればよいのでしょうか?

使用しているZABBIXのバージョンは2.0.3です。宜しくお願いします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー fripper の写真

開示できる範囲だけでも構いませんので、以下を併せて書いて頂けると、原因の特定や
設定修正への方向付けなど、アドバイスが得られやすいと思います

・アクションとして設定している内容
・現在メールが届き続けているトリガーの設定内容
・当該トリガーに関連づいているアイテムの設定内容
・ここ最近の当該アイテムに関する収集データの推移(値や収集時刻等)

また、2.0.3 をご利用とのことですが、2.0.13 が既にリリースされています
できるかぎり、新しい版のご利用をお奨めします

ユーザー tommy の写真

fripper様

回答ありがとうございます。

> ・アクションとして設定している内容
アクションの実行条件は以下の通りです。
・(A) ホストテンプレート=Template OS Linux
・(B) トリガーの値="障害"
・(C) トリガー<>"Template OS Linux: Operating System Log ERROR on Template OS Linux" ※/var/log/messagesのERRORやFATALを検知するトリガー
・(D) トリガー <> "Template OS Linux: Server is down on Template OS Linux" ※icmppingダウンを検知するトリガー

当初は(A) and (C or D)でしたが、(B)を足したことで現在は(A) and (B) and (C or D)です。(B)を足しても現在も継続してメールが通知されます。

またアクションの実行内容は
・ステップ 開始:1, 終了:0
・ステップの間隔:600 ※少し前は300にしていましたが、現在は600にしています。また変更後に5分間隔のメール送信が10分間隔に変わりました

>・現在メールが届き続けているトリガーの設定内容
{Template OS Linux:proc.num[,,run].last(0)}>30 ※デフォルトであったものです

>・当該トリガーに関連づいているアイテムの設定内容
proc.num[,,run] ※デフォルトであったものです

>・ここ最近の当該アイテムに関する収集データの推移(値や収集時刻等)
直近12時間での平均数は1.41、最大で5、最小で1です

ユーザー tommy の写真

fripper様

ZABBIXのバージョンですが、2.0.3と回答しましたが正しくは2.0.6でした。

ユーザー KAZ の写真

tommyさん


・(A) ホストテンプレート=Template OS Linux
・(B) トリガーの値="障害"
・(C) トリガー<>"Template OS Linux: Operating System Log ERROR on Template OS Linux" ※/var/log/messagesのERRORやFATALを検知するトリガー
・(D) トリガー <> "Template OS Linux: Server is down on Template OS Linux" ※icmppingダウンを検知するトリガー

(A) and (B) and (C or D)って、(A) and (B)なりますよ?
否定条件なので…
CとD除きたかったら、(A) and (B) and (C) and (D)ですよ。

ユーザー tommy の写真

>KAZ様

(A) and (B) and (C or D)は計量のタイプがAND/ORの状態で、条件を1個1個足した時にZABBIX側がそのように判断したものです。

どうやら小生が条件部分を誤解していたことで発生していました。計量タイプをANDにしたところ飛ばなくなりました。

色々とありがとうございました。

ユーザー tommy の写真

すいません。やはりメール送信が続く状態です。

最初の設定状態で1度でも送られると後から設定を追加しても直らないのでしょうか?

ユーザー fripper の写真

「アクションの実行内容」タブで設定する、各ステップの実行内容に関する設定部分で

・開始 → 1 (トリガー検知後すぐに開始)
・終了 → 0 (延々と繰り返し続ける)
・間隔 → 600(300) ステップ実行の間隔は10分・5分

というように設定されているようですが‥

「終了」で「0」を指定している限りは、「いつ、このステップの繰り返しを辞めたらいいか」が無い状態なので
無限に繰り返しされてしまうのではないでしょうか?

「アクションの実行条件」タブでの「A and B and....」というのは、最初にアクションを発火させるための条件であり、
繰り返しの際の継続条件ではないのだと思います

「アクションの実行内容」タブ側の、各ステップの実行内容に関する設定の中、
一番したの方に、「アクションの実行条件」という項目があります

#同じ名称でややこしいですね‥

コレが、毎回のステップを実行・継続する際の実行条件に相当するのではないでしょうか?
ここの条件設定には、「障害対応済」=「コメント有り・コメント無し」という条件しか
表示されないようです

おそらく、障害発生時、ダッシュボード等で、障害トリガーに対して、コメントを付ける等で、
対応済を示したか否か、しか、ステップの継続条件にできないのではないでしょうか?

この部分が設定されていない場合、無限に繰り返されてしまうのだと思います

https://www.zabbix.com/documentation/2.0/manual/web_interface/frontend_s...
https://www.zabbix.com/documentation/2.0/jp/manual/web_interface/fronten...

Web マニュアルでは、この辺りの「ステップ」に関する設定についての記述が無いようです‥残念。

ユーザー TNK の写真
ユーザー fripper の写真

なるほど、こんな所に。

上長への遅延通知等がサンプル事例のようですね。
繰り返しの(無限)に関する説明は無いものの、「ステップ」の発動条件としての
「対応済コメント」については記載がありますね。

ユーザー tommy の写真

>fripper 様、TNK様

設定してみたところ今度はメールが届かなくなりました。

色々お騒がせしました。ありがとうございました。