ログ/トラップ監視の自動復旧

お世話になります。

監視対象から通知されたアラートの復旧後、
ログ/トラップ監視を含め、監視サーバーのダッシュボード上の表示を、
自動的に正常状態に戻す処理を実現したいと考えております。

実現手法を ご存じの方がいれば ご教授下さい。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー fripper の写真

監視対象のアイテムと、現在のトリガー設定についてを書いていただけると、
より適切なアドバイスが得られるかと思います

ログ監視で、収集するアイテムの段階でキーワードを絞り込んでいる場合など
「特定キーワードを含んだ文字列は飛んでくるから、異常は検知できるんだけど、
 正常に戻るようなキーワードは飛んでこないので、障害から戻せない」は
現状の zabbix の仕様です

これを回避するために、みなさんトリガー設定を工夫しているわけですが‥
http://www.zabbix.jp/node/1542

私の場合には、snmptrap 監視では以下の様なトリガーにしています
1.「Trap Recovered」という特定の文字列を含んでいれば「正常」  →正常復帰用の条件式
 それ以外は‥
  1.現在のトリガー状態が正常ならば、とりあえずどんな文字列を含んでいても「異常」  →正常→異常への状態遷移用
 もしくは
  1.現在のトリガー状態が異常ならば、そのまま維持して「異常」

{T_SNMPTrap:snmptrap[ Major ].str(Trap Recovered)}=0&(({TRIGGER.VALUE}=0&{T_SNMPTrap:snmptrap[ Major ].regexp(.*)}=1}|{TRIGGER.VALUE}=1)

というような条件式にしておいたうえで、正常復帰させたいときに、当該監視項目が参照しているファイルやアイテムキーに
 (snmptrap 監視ならば snmptt が吐くファイル等 や、log監視ならば対象のログファイルを監視しているアイテム等)
「Trap Recovered」と、通常の運用では出力され得ない文字列を、強制的に叩きこむようにしています

Web 画面から、これを発動させるために、当該項目の復旧用スクリプトとしてサーバ上に配置しておいて、
「管理」→「スクリプト」で呼び出せるようにしています