アクション設定にてメール通知されない
お世話になります。
zabbix1.8.5-1.JPにて全てのホストグループで異常が発生した際にメールを通知する設定を実施しています。
一部の障害でメールが送信されないアイテムがあり困っています。該当ホストグループに別名でホストを作成しても同様でした。
”監視データ>ダッシュボード>最新20件の障害”で確認すると約半分程度がアクション
欄が"-"になっています。
送信されるアイテムとされないアイテムの違いがわからず困っております。
設定上問題となりそうな箇所がありましたらご指摘よろしくお願いします。
メール通知に利用するユーザは全てホストの参照権限をもっています。
送付されない障害を確認すると”最新の変更”がアクション設定
以前になっており、設定前から障害のものが多いように思われます。
1)アクション設定内容
?アクション
エスカレーションを有効
期間(秒):1800
リカバリメッセージ:チェック
?アクションのオペレーション
ステップ 開始:1 終了:0 期間:0
?アクションのコンディション
計算のタイプ
(A) and (B or C or D)
(A) トリガーの値 = "障害"
(B) ホストグループ = "サーバ室温度"
(C) ホストグループ = "ネットワーク機器"
(D) ホストグループ = "全サーバ"
上記もしくは、下記トリガー=障害のみに変更しても通知はされませんでした。
計算のタイプ:(A)
(A) トリガーの値 = "障害"
tsuzuki - 投稿数: 78
鈴木です。
『”最新の変更”がアクション設定以前になっており、設定前から障害』
と書かれている内容を詳細に教えてもらえますか?
エスカレーションを有効にしているということは、アクション設定以前から発生している障害に対して、エスカレーション機能によって30分経ったらメール通知されることを期待しているということでしょうか?
fuji - 投稿数: 12
鈴木様お世話になります。
長期不在だったため返信が遅くなり申し訳ありません。
説明不足で申し訳ありません。
当初、エスカレーションは利用していな状態で利用しておりましたが、既存の監視装置(Zabbixに移行予定)が障害がなくなるまで
30分単位で通知を繰り返すため、エスカレーションを有効にして
障害時30分単位でメール通知するように変更しました。
変更後、変更前から障害状態(例えば、省エネ対応で停止中サーバへのPing監視)のアイテムに関するエスカレーション通知が
メール通知されていません。
エスカレーション設定以前に何らかの通知済み状態が残って
しまっているのかも知れないと考えておりますが、調査の糸口
があればご教授よろしくお願いします。
kodai - 投稿数: 1341
問題が起こっている(メールが送信されていない)アイテムのキーと、トリガーの条件式、トリガーの「イベント生成」の設定値を教えてください。
トリガーでnodata()関数を利用し、イベント生成が「ノーマル+障害を継続して生成」になっていたりすると、思わぬ動きをするため注意が必要です。
fuji - 投稿数: 12
お世話になります。ご連絡が遅くなり申し訳ありません。
送付できないアイテムは複数ありますが、そのうちの1つを掲載します。
1)アイテムキー
vfs.fs.size[/backup,pused]
2)トリガーの条件式
{[HOSTNAME]:vfs.fs.size[/backup,pused].last(0)}>95
3)イベント生成
ノーマル
5)アクションのコンディション
(A or B or C or D or E or F or G or H or I or J or K or L or M or N or O or P or Q or R or S or T or V) and (U)
(A) ホストグループ = "Windows 2008"
(B) ホストグループ = "Windows 2003" ←このホストグループに属しています
(C) ホストグループ = "Windows 2000"
:
(U) トリガーの値 = "障害"
(V) ホストグループ = "Windows XP"
6)アクション:エスカレーションを有効
チェック
上記設定内容は「ダッシュボード」「最新20件の障害」に表示されますが「アクション」欄が
「-」マイナスのままです。
アクションが実行できない点を調べるきっかけでもかまいませんのでよろしくお願いします。
kodai - 投稿数: 1341
イベントが生成されてからアクションが実行されるまでには最大で30秒かかるのですが、その間にトリガーが正常の状態に戻っているということはないでしょうか?
fuji - 投稿数: 12
お世話になります。
各アイテムの更新間隔はすべて300秒(5分)に設定しています。
そのため30秒以内に更新されることはないと思ってます。
実際停止しているサーバのPing監視でメールのみ送信されない
ところがあります。
アイテム数を確認すると下記の状況ですが、多すぎることが
原因でしょうか?
アイテム数 (有効/無効/取得不可)
-------------------------------------
4940 (3894/836 /210)
トリガー数 (有効/無効)[障害/不明/正常]
----------------------------------------
2329 (1966/363) [71 / 79 / 1816]
fuji - 投稿数: 12
お世話になります。
現時点でメール送付されていないアイテムについて確認したところ、エスカレーション設定
を実施する前から障害状態だったアイテムが通知されていないことがわかりました。
以下を実施するとメール通知が再開しました。
?トリガ閾値を上げ、正常になる設定に変更。ダッシュボードより障害件数が減ることを確認
?更新間隔(5分)経過後、閾値を元に戻す。
?更新間隔(5分)経過後、メール通知を確認
なお、ダッシュボードのアクション欄が"-"についての勘違いがあり、大量のアクション動作不良
があると思い込んでおりました。
(初回障害発生時は”正常”となりエスカレーション間隔(半日)中は"-"となっており、実際は
メール通知されているものが紛れておりました)
?〜?を数個の未送信アクションのトリガに実施したところ正しく復帰しました。
この動きについてマニュアル等には記載が無いようにみえますが正しい見解でしょうか?