ログ監視における同時多発メッセージの検知について
サーバ(CentOS:5.5)、エージェント(Windows2008 R2)ともに
Zabbixのバージョンは2.2.9を使用しています。
ログ監視にて同時多発で出るメッセージに対してアクションが正常に実施されていないように見えます。
以下が設定内容です。
【アイテム・トリガー】
・アイテム1
アイテム名: アイテム1-異常終了
キー:log[C:\○○○○○\○○○○○\System.log,@SeikiHyougen_abnormalEND,SHIFT_JIS]
アプリケーション:JOB
↓
トリガー
トリガー名:【バッチ業務】アイテム1-異常終了
{アイテム名].regexp(.)}=1
障害をイベントを継続して生成
深刻度:重度の障害
・アイテム2
アイテム名: アイテム2-FATAL
キー:log[C:\○○○○○\○○○○○\System.log,@SeikiHyougen_FATAL,SHIFT_JIS]
アプリケーション:JOB
↓
トリガー
トリガー名:【バッチ業務】アイテム2-FATAL
{アイテム名].regexp(.)}=1
障害をイベントを継続して生成
深刻度:重度の障害
★★アイテム1、アイテム2共に同じログを監視し、違う文字列を検知するように設定
【アクション設定】
アクション設定で {ITEM.LASTVALUE}を使用し、検知したメッセージを表示させている
【検知メッセージ】
実際に検知したメッセージ
①2015-12-02 01:28:41.071 FATAL - メッセージC
②2015-12-02 01:28:41.087 FATAL - メッセージC
③2015-12-02 01:28:41.103 FATAL - メッセージC
④2015-12-02 01:28:41.118 FATAL - メッセージC
⑤2015-12-02 01:28:41.134 FATAL - メッセージC
⑥2015-12-02 01:28:41.150 FATAL - メッセージC
⑦2015-12-02 01:28:41.165 FATAL - メッセージC
⑧2015-12-02 01:28:41.181 FATAL - メッセージC
⑨2015-12-02 01:28:41.196 FATAL - メッセージC
⑩2015-12-02 01:28:41.212 FATAL - メッセージC
⑪2015-12-02 01:28:41.275 FATAL - メッセージC
⑫2015-12-02 01:28:41.90 FATAL - メッセージB
⑬2015-12-02 01:28:41.91 FATAL - メッセージA
Zabbixにて通知されたメッセージ
アイテム1-異常終了
①2015-12-02 01:28:41.90 FATAL ALBAT0105N1 - メッセージB
②2015-12-02 01:28:41.91 FATAL ALBAT0105N1 - メッセ―ジA
アイテム2-FATAL
③2015-12-02 01:28:41.91 FATAL - メッセージA
④2015-12-02 01:28:41.91 FATAL - メッセージA
⑤2015-12-02 01:28:41.91 FATAL - メッセージA
⑥2015-12-02 01:28:41.91 FATAL - メッセージA
⑦2015-12-02 01:28:41.91 FATAL - メッセージA
⑧2015-12-02 01:28:41.91 FATAL - メッセージA
⑨2015-12-02 01:28:41.91 FATAL - メッセージA
⑩2015-12-02 01:28:41.91 FATAL - メッセージA
⑪2015-12-02 01:28:41.91 FATAL - メッセージA
⑫2015-12-02 01:28:41.91 FATAL - メッセージA
⑬2015-12-02 01:28:41.91 FATAL - メッセージA
⑭2015-12-02 01:28:41.91 FATAL - メッセージA
⑮2015-12-02 01:28:41.91 FATAL - メッセージA
⑯2015-12-02 01:28:41.91 FATAL - メッセージA
⑰2015-12-02 01:28:41.91 FATAL - メッセージA
⑱2015-12-02 01:28:41.91 FATAL - メッセージA
⑲2015-12-02 01:28:41.91 FATAL - メッセージA
という状態になっており、メッセージCが通知されるはずがされていない状況です。
以前は1.8を使用していたのですが、多数検知には弱いということで2.2に移行しましたが、
同様の事象が発生しております。
その他の状況としては、
・同じログに対して、26個のアイテムを登録している
・設定の仕方はいずれもアイテム側で正規表現を使用し、トリガーは全て{アイテム名].regexp(.)}=1で設定
思い当ることはありますでしょうか。
また、同じログに対してアイテムを設定する場合、あまり個数が多いとよろしくないのでしょうか。
トリガーで分けた方がよいのでしょうか。
以下のような形が望ましいのでしょうか。
アイテムである程度振り分け・・・ErrorやWarningなど特定の文字列
↓
トリガーでさらに振り分けて通知
アドバイスいただけると助かります。
TNK - 投稿数: 4671
複数回障害を検知していて同じメッセージが送られてくる件に関し
ては、アクションのメッセージのマクロで、
{ITEM.LASTVALUE}
を利用されているからでしょう。
このマクロは、障害を検知したときのアイテムの値ではなく、アク
ションを実行する時点での最新値ですので、障害を検知した時の
値とはずれる場合があります。
障害発生時のアイテムの値が必要であるならば、
{ITEM.VALUE}
を利用するようにしてください。
tomi12120321 - 投稿数: 105
連絡が遅くなりまして申し訳ありません。
ご回答ありがとうございます。
承知致しました。
{ITEM.VALUE}
を設定して様子を見てみます。