一時的にアクションが行われない状態について
いつも勉強させて頂いてます。
以下のような現象が発生したので、調べていたのですが行き詰まっております。
1) ロードバランサー 2 台から、Zabbix サーバーにログを送りつけてます
2) Zabbix サーバーにて、その届いたログを監視してます
3) 特定文字を拾ったら、トリガーが発動し、アクションにてメール送信を行ってます
毎日特定ログでトリガーが発生して、アクションが行われていたのですが、一時的にアクションが行われなかった事象がありました。
該当のトリガーのイベント状態を見てみたところ、添付ファイル(event_list.jpg)のように、一時的に[2014/06/05 05:01:39]から[2014/06/05 05:01:49]までのアクション欄が[-]となっておりました。
ただしもう一台の方は、正常にアクションが行われておりました(添付ファイル event_list2.jpg)。
特にこの間に設定変更等は行ったりしていないのですが、どなたかアクションが行われなかった原因等で思い当たる事象があれば、と思い投稿しました。
- event_list.jpg (65.71 KB)
- event_list2.jpg (67.14 KB)
TNK - 投稿数: 4740
利用されているZabbixのバージョンはいくつですか?
あと、アイテム、トリガー、アクション、各送信先のメディアなど、
監視の設定はどのようにされていますか?
メンテナンス期間が設定されていたり、メディアの設定で送信する
条件に合致しなかったりすると、同様の現象が発生する可能性はあ
るかもしれません。
koji.bz - 投稿数: 20
TNK 様
返信、ありがとうございます。
遅くなり、申し訳ありません。
また、質問に際して、情報が少なかったことも、すみません。
Zabbix のバージョンは、[2.0.4]です。
アイテムは、[Zabbix server]に、log[/var/log/remote/hostxxx.log,alert,,]で作成し、転送されてきたログで[alert]文字列のみ取得してます。
トリガーは、上記アイテムに対して、以下のようなトリガー式を作成し、深刻度を[重度な障害]としております。
({Zabbix server:log[/var/log/remote/hostxxx.log,alert,,].regexp("hostxxx[[:space:]]alert")})=1
アクションについては、
1) メンテナンスの状態 期間外 "メンテナンス"
2) トリガーの値 = "障害"
3) トリガーの深刻度 = "致命的な障害"
4) トリガーの深刻度 = "重度の障害"
5) トリガーの深刻度 = "警告"
6) トリガーの深刻度 = "軽度の障害"
という条件とし、送信先のメディアとしては、E メールです。
TNK 様のおっしゃるように、メンテナンス状態だったようにも見受けられますが、メンテナンスの設定はありませんでした。
koji.bz - 投稿数: 20
追記です。
アクションですが、パトライトを鳴らすように以下のアクションもありました。
ステップについては、メール送信アクションと同じです。
・実行内容のタイプ:リモートコマンド
・次で実行:Zabbix サーバー
・コマンド:/home/zabbix/bin/patlite-2.sh
上記のパトライトを鳴らすためのシェルの内容は
#!/bin/sh
/usr/bin/rsh xxx.xxx.xxx.xxx -l patlite alert 200001
パトライトは、PATLITE 社の製品です。
こちらの処理がエラーとなっており、そのためメール送信のアクションも行われなかったかも、と想定してます。
エラーとなった理由は、今のところ不明です。