いつもお世話になっております。
メニューから設定->アクションで、メールを送信するアクションを入れておりますが、 エスカレーションを無効にすることにより繰り返しアラートを停止しました。 繰り返しアラートは停止したかったのですが、
ログ監視について、1回目の検知はされるのですが、2回目以降のログ監視がされなくなりました。 これはエスカレーションの有効無効が何か関係あるでしょうか?
環境をお伝え漏れてました。 zabbix 1.8.2 OS:centos 5.8 となります。
どのような現象で監視されなくなったと判断されたのかをお教え ください。 アイテムの値が取得できなくなったのですか? トリガーが反応しなくなったのですか? トリガーは反応するけど、アクションが実行されなくなったのです か?
あと、もう少しどのように設定されたのかをお教え頂けませんでし ょうか? 例えば、アイテム、トリガー、アクションなどにどのように設定さ れているのでしょうか。
すみません。本番でトラブっていて焦ってしまいました。
やりたいこととしては、ログにERRORがあった場合、ERRORの文字列が出力されるたびに検知しアラートを上げたいです、 そして最後のERRORの文字列出力から一定期間たった場合に正常のアラートを上げたいということになります。
施した設定は以下になります。 {Template:log[/var/log/error.log,ERROR].nodata(180)}=0 ノーマル+障害イベントを継続して生成
ただこれですと30秒おきにアラートが生成されてしまうため、 本来はERRORが出たタイミングをアラートのトリガーとしたいと思っております。
もしくは、障害イベント継続生成のインターバルを調整できればいいのですが。
トリガー判定式を、現状のトリガー値を加味して判定するようにしてはいかがでしょうか?
({$TRIGGER.VALUE}=0 & {Template:log[/var/log/error.log,ERROR].regexp(.*)=1}) | ({$TRIGGER.VALUE}=1 & {Template:log[/var/log/error.log,ERROR].nodata(180)=0})
・現在トリガーが発動中ではなくて、なおかつ何らかのログをうけとった場合→エラー検知 ・現在トリガーが発動中で、180秒以内にデータがある場合→エラー続行 ・現在トリガーが発動中で、180秒以内にデータがない場合→正常に戻る
といった具合でどうでしょうか‥?
検証までできていないのでうまく動かないかもしれませんけど‥アイデアとして。
多重投稿のため削除しました
試させてもらいます!ありがとうございます!
({$TRIGGER.VALUE}=0 ) | ({$TRIGGER.VALUE}=1 )
↓{}の位置が違いましたかね
({$TRIGGER.VALUE}=0 =1) | ({$TRIGGER.VALUE}=1 =0)
>({$TRIGGER.VALUE}=0 ) >| >({$TRIGGER.VALUE}=1 ) > >・現在トリガーが発動中ではなくて、なおかつ何らかのログをうけとった場合→エラー検知 >・現在トリガーが発動中で、180秒以内にデータがある場合→エラー続行 >・現在トリガーが発動中で、180秒以内にデータがない場合→正常に戻る
こちら試させてもらいました。 180s以内の時間内でも、ERRORを連続非連続にかかわらず受け取った数だけアラートを上げたいのですが、 上記だとおそらく エラー検知 をした後は正常に戻るなり状態が変わったタイミングでのみアラートが上がるようです。 エラー継続中はアラートが連続で上がることはありませんでした。
アイデアありがとうございました。
おそらく本来的には、キー設計を見直して、 /var/log/error.log,ERROR ↓ /var/log/error.log 最新の取得文字列と"ERROR"文字列の比較でトリガーを作った方がよさそうです。 ただ、連続ERRORの文字列を検知して都度アクション起こさせるアクションを作るのは難しそうです。
そうなるとキーやアクション設計の大幅な見直しなので、”今回は、ノーマル+障害イベントを継続して生成”で回避しようと思います。
アカウント名 maco
本名 上原 誠
ホームページ http://ameblo.jp/pioho07/
Facebook http://www.facebook.com/home.php#!/makoto.uehara.39
Zabbix関連
maco - 投稿数: 32
環境をお伝え漏れてました。
zabbix 1.8.2
OS:centos 5.8
となります。
TNK - 投稿数: 4730
どのような現象で監視されなくなったと判断されたのかをお教え
ください。
アイテムの値が取得できなくなったのですか?
トリガーが反応しなくなったのですか?
トリガーは反応するけど、アクションが実行されなくなったのです
か?
あと、もう少しどのように設定されたのかをお教え頂けませんでし
ょうか?
例えば、アイテム、トリガー、アクションなどにどのように設定さ
れているのでしょうか。
maco - 投稿数: 32
すみません。本番でトラブっていて焦ってしまいました。
やりたいこととしては、ログにERRORがあった場合、ERRORの文字列が出力されるたびに検知しアラートを上げたいです、
そして最後のERRORの文字列出力から一定期間たった場合に正常のアラートを上げたいということになります。
施した設定は以下になります。
{Template:log[/var/log/error.log,ERROR].nodata(180)}=0
ノーマル+障害イベントを継続して生成
ただこれですと30秒おきにアラートが生成されてしまうため、
本来はERRORが出たタイミングをアラートのトリガーとしたいと思っております。
もしくは、障害イベント継続生成のインターバルを調整できればいいのですが。
fripper - 投稿数: 495
トリガー判定式を、現状のトリガー値を加味して判定するようにしてはいかがでしょうか?
({$TRIGGER.VALUE}=0 & {Template:log[/var/log/error.log,ERROR].regexp(.*)=1})
|
({$TRIGGER.VALUE}=1 & {Template:log[/var/log/error.log,ERROR].nodata(180)=0})
・現在トリガーが発動中ではなくて、なおかつ何らかのログをうけとった場合→エラー検知
・現在トリガーが発動中で、180秒以内にデータがある場合→エラー続行
・現在トリガーが発動中で、180秒以内にデータがない場合→正常に戻る
といった具合でどうでしょうか‥?
検証までできていないのでうまく動かないかもしれませんけど‥アイデアとして。
fripper - 投稿数: 495
多重投稿のため削除しました
maco - 投稿数: 32
試させてもらいます!ありがとうございます!
({$TRIGGER.VALUE}=0 )
|
({$TRIGGER.VALUE}=1 )
↓{}の位置が違いましたかね
({$TRIGGER.VALUE}=0 =1)
|
({$TRIGGER.VALUE}=1 =0)
maco - 投稿数: 32
>({$TRIGGER.VALUE}=0 )
>|
>({$TRIGGER.VALUE}=1 )
>
>・現在トリガーが発動中ではなくて、なおかつ何らかのログをうけとった場合→エラー検知
>・現在トリガーが発動中で、180秒以内にデータがある場合→エラー続行
>・現在トリガーが発動中で、180秒以内にデータがない場合→正常に戻る
こちら試させてもらいました。
180s以内の時間内でも、ERRORを連続非連続にかかわらず受け取った数だけアラートを上げたいのですが、
上記だとおそらく
エラー検知 をした後は正常に戻るなり状態が変わったタイミングでのみアラートが上がるようです。
エラー継続中はアラートが連続で上がることはありませんでした。
アイデアありがとうございました。
おそらく本来的には、キー設計を見直して、
/var/log/error.log,ERROR
↓
/var/log/error.log
最新の取得文字列と"ERROR"文字列の比較でトリガーを作った方がよさそうです。
ただ、連続ERRORの文字列を検知して都度アクション起こさせるアクションを作るのは難しそうです。
そうなるとキーやアクション設計の大幅な見直しなので、”今回は、ノーマル+障害イベントを継続して生成”で回避しようと思います。