メール通知の運用に関しまして

いつもお世話になっております。
Zabbixによるメール通知の運用について質問が御座います。

現在Zabbix 3.2を使用して何台かのサーバを監視しているのですが、
障害が発生した時のメール通知の設定に悩んでいます。

今の設定では障害発生時と復旧時のみメール通知を行う設定となっているのですが、
これだと障害発生時のメールに気づけなかった場合にそのまま放置してしまう恐れがあります。(実際にありました。。)
かといって何度も送信するようにすると、早急に対応できない場合に何通もメールが届くことになってしまい、
私以外にも受信している人がいるのでそちらに迷惑がかかってしまう、といった次第です。

自分が何を優先するかで運用を決めればよいとは思うのですが、監視というものをやり始めたばかりで
近くに相談できるものもいないため、こちらで皆様のメール通知の運用に対するお考えをお伺いできればと存じます。

・メールは障害発生時のみ送信する。
・障害が復旧するまで定期的に送信する。
・基本は定期的に送信し、気づいたら手動で止める。

上記のうちどのような設定にしているか、可能であればその理由についてもお答えいただけますと幸いです。
何卒よろしくお願い致します。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。

広瀬です

アクションの機能の一つに、エスカレーションというものがあります。
この機能を使えば、復旧するまで何度(指定した時間間隔毎)もメールを出すことが
可能です。止める場合はコメント入れたらメール通知をしなくする事も出来たはずです

https://www.zabbix.com/documentation/3.2/manual/config/notifications/act...

エスカレーションのマニュアルは上記です。ご参照のほど

ユーザー r-kanai の写真

ご返信いただき有難うございます。

上記機能は試したことがあるのですが、手動で止めたあとに取得した値が異常値だった場合、
再度障害発生の通知メールが飛んでしまうため、結果としてメールを止めることができませんでした。

その時にテストした設定は以下になります。

Zabbixバージョン:3.2

【アイテム】
名前:Item test
タイプ:Zabbixエージェント
キー:net.tcp.service[tcp,,10051]
データ型:数値(整数)
データの形式:10進数
更新間隔:300
値のマッピング:Service state

【トリガー】
名前:Torigger test
深刻度:情報
条件式:{●●:net.tcp.service[tcp,,10051].last(0)}=1
手動でのクローズ許可:有効

【アクション】
名前:Action test
実行条件:トリガーの深刻度=情報
ステップ:1-0
ステップの間隔:600
実行内容のタイプ:メッセージの送信

こちらの設定でどこか修正したほうがいい箇所は御座いますでしょうか。
また、広瀬様は普段どのようなメール通知の運用を行っておりますでしょうか。

お手数おかけ致しますが、ご返答いただけますと幸いで御座います。
何卒宜しくお願い致します。