障害の見逃しについて
ポート監視を行うにあたり、以下の設定を行いました。
【条件】{XXXXXX:net.tcp.port[,80].last(0)}<>1
【正常イベントの生成】条件式
【障害イベント生成モード】単一
なんらかしらの影響で「port:80」で通信出来なくなった場合
意図したように障害アラートが発報されます。
ここまでは問題ないのですが
「port:80」で通信できない状態をN日放置してしまったとします。
「port:80」で障害があった事を覚えていればいいのですが
忘れてしまったり、他の障害で埋もれてしまったりする場合が多々あります。
皆さんはこのような事象は起きませんか?
また、起きている方はどのように回避していますか?
Zabbixでは再発報等出来ないと認識しています。
何かいい方法がありましたら教えてください。
kaeru - 投稿数: 264
>初心者監視様
ZabbixVerが不明なため、
2.2のマニュアルでご案内させて頂きますが、
エスカレーション機能を用いて、
未解決の場合には繰り返しアラート(メール送信)を行ったり、
上位メンバーへのメール送信などが行えます。
https://www.zabbix.com/documentation/2.2/jp/manual/config/notifications/...
外部サービスを使用するのであれば、
IIJ様が提供する統合Zabbix環境はTwilioを利用した自動電話通報サービス等もございます。
※IIJ様はよくZabbixカンファレンスで上記機能のお話をされております。
また、所感ですが、
対応すべき障害が埋もれてしまう、見逃してしまうという運用自体にも問題があると思いますので、
アラートが多すぎるのであれば不要なアラートは事前に抑止、除外する、
トリガーの深刻度を適切に反映し"致命的な障害(Disaster)"は即時対応にする対応フロー整備する、
出たアラートはインシデント管理を行う等を検討した方が良いかと思います。