メンテナンス期間中の障害通知について
お世話になります。
Zabbixの監視を始めたばかりでわからないことがございます。
Zabbixサーババージョンは2.4.4になります。
監視対象サーバで、メンテナンス期間中に特定サービスの落とし上げを実施しているのですが、このメンテナンス期間中に障害通知が送信されてしまう事象が発生しております。
原因を調査しているのですが、原因が特定できず、手詰まりな状態です。もし、解決方法をご存じの方がいらっしゃいましたらご教授頂けないでしょうか。
メンテナンス、アクション、アイテム、トリガーの設定は以下になります。
■メンテナンスの設定内容
[メンテナンスタブ]
タイプ :データ収集あり
開始日時 :2016/3/16 0:00
終了日時 :2036/3/17 0:00
[期間タブ]
タイプ :毎日
スケジュール :毎1日 2:55
期間 :35m
[ホスト&グループタブ]
メンテナンス対象のホストを設定しております。
■アクションの設定内容
[アクションの実行条件タブ]
計算タイプ :A and B and C
条件 :A メンテナンスの状態 期間外 メンテナンス
B トリガー深刻度>=警告
C ホストグループ=対象サーバが所属するグループ
[アクションの実行内容タブ]
実行内容 :ユーザーにメッセージを送信
■アイテムの設定
キー :service_state[サービス名]
更新間隔 :30
ヒストリ :90
トレンド :365
タイプ :Zabbixエージェント
■トリガー設定
条件式 :{ホスト名:service_state[サービス名].last()}>0
監視対象サーバ情報は以下になります。
●特定サービス内容
サービス :データベースのサービス
停止時刻 :毎日 午前3:00
開始時刻 :毎日 午前3:22頃
アラート内容は以下になります。
■障害通知内容
障害通知時刻 :午前3:00
内容 :サービスが停止しました。
備考 :メンテナンス期間中に通知される
■復旧通知内容
復旧通知時刻 :午前3:30
内容 :サービスが開始しました。
備考 :メンテナンス期間後に通知される
■サーバでのサービス監視状況
障害発生時間 :午前3:00-午前3:22
以上、よろしくお願い致します。
TNK - 投稿数: 4720
障害通知された時刻しか記載頂いていませんが、年月日も合わせて
情報をご提供ください。
Hiroyuki Anzai - 投稿数: 7
ご連絡ありがとうございます。
障害通知時刻の年月日も合わせて記載致します。
■障害通知内容
障害通知時刻 :2016/3/17 午前3:00
2016/3/18 午前3:00
内容 :サービスが停止しました。
備考 :メンテナンス期間中に通知される
■復旧通知内容
復旧通知時刻 :2016/3/17 午前3:30
2016/3/17 午前3:30
内容 :サービスが開始しました。
備考 :メンテナンス期間後に通知される
よろしくお願い致します。
TNK - 投稿数: 4720
試しに、近い時間帯で設定した時刻にメンテナンス期間に入るか
試してみてください。
メンテナンス期間に入ったホストは、
設定 -> ホスト
でホストの一覧を表示させたり、マップ上の状態を確認すると、
ステータスがオレンジ色になって「メンテナンス中」もしくは
「メンテナンス(<メンテナンス設定名>)」という表示になります。
例えば、19:30から30分間、特定のホストがメンテナンス状態にな
るように設定して、その設定した時刻に該当のホストがメンテナン
ス中の状態になるかを確認してみてください。
もしならないようであれば、OSのタイムゾーンとPHPのタイムゾー
ン、OSの時刻が標準となる時計と同期できているかを確認してみて
ください。
最後に、Zabbix 2.4系は、今月でサポートが終了します。
早急にバージョンアップの準備をご検討ください。
http://www.zabbix.com/jp/life_cycle_and_release_policy.php
Hiroyuki Anzai - 投稿数: 7
ご連絡ありがとうございます。
上記、実施結果をご連絡致します。
結果、メンテナンス状態になることを確認しました。
ホスト一覧でステータス部分がオレンジ色で「メンテナンス中」と表示されます。
■変更したメンテナンス設定
[メンテナンスタブ]
タイプ :データ収集あり
開始日時 :2016/3/16 0:00
終了日時 :2036/3/17 0:00
[期間タブ]
タイプ :毎日
スケジュール :毎1日 7:55
期間 :35m
[ホスト&グループタブ]
メンテナンス対象のホストを設定しております。
※上記設定は、2016/3/23 7:50に変更致しました。
■ホスト一覧で確認した時刻
時刻 :2016/3/23 7:55
ホストステータス :メンテナンス中
よろしくお願い致します。
TNK - 投稿数: 4720
メンテナンスの機能は動いているようですので、メンテナンスの設
定でメンテナンス対象のホストからいったん外して更新し、メンテ
ナンス対象のホストに追加して更新することで、メンテナンスの設
定を保存しなおしてみてください。
時刻の同期に関してですが、Zabbixサーバーと監視対象のホストの
時刻同期も確認しておいてください。
あと、トリガーが発生したアイテムの3時前後の値の取得状態を確
認してください。
例えば、3時よりも前の時点でアイテムに設定されている通り30秒
間隔で値を取得できていますか?
もしそれでも正常に時刻も同期されていて、アイテムの値も取得で
きていて、ログにも何も出力されず、Zabbixサーバー上のキューへ
の滞留も各プロセスのbusyもキャッシュの枯渇も無いのであれば、
あとは、メンテナンス期間の開始時刻をもう少し早めて試してみて
いただけませんでしょうか?
Hiroyuki Anzai - 投稿数: 7
ご連絡が遅くなりました。
本日、ご教示頂きました内容で、設定致します。
明日、結果を報告させて頂きます。
また、3時付近のアイテムの値も確認致します。
------- 2016/3/24(木) 追記致します。
■結果
・メンテナンス中のサービス停止の障害通知はされなかった。
・メンテナンス後にサービス開始の復旧通知がされた。
■質問
ホストの削除、追加で障害通知がされなくなった要因はなんでしょうか。
また、復旧通知がされた原因等は、ございますでしょうか。
■復旧通知詳細
通知日時:2016/3/24(木) AM 3:30
■3/24(木) AM2:50-AM3:40のアイテム値
2:50:01-3:00:01 アイテム値:0
3:00:31-3:23:31 アイテム値:6
3:24:01-3:40:01 アイテム値:0
更新間隔は、30秒ごとに記録されております。
■メンテナンスの設定内容
[メンテナンスタブ]
タイプ :データ収集あり
開始日時 :2016/3/16 0:00
終了日時 :2036/3/17 0:00
[期間タブ]
タイプ :毎日
スケジュール :毎1日 2:55
期間 :35m
お手数お掛け致しますが、宜しくお願い致します。
TNK - 投稿数: 4720
利用されているZabbixのバージョンが2.4.4と2.4系でも初期のもの
でバグも多かったと思うので、再設定することでより確実にメンテ
ナンスの対象ホストとして登録されたのかもしれません。
アイテム自体の状態としては、内部的には正常な状態から取得不可
の状態になり、取得不可の状態になると、再度値を取得するまでに、
通常の更新間隔ではなく、確かデフォルトでは10分間値の取得を保
留したと思います。
そのあたりのリトライのタイミングと正常に値が取得できたタイミ
ングの前後関係によって何らかの問題が発生したのかもしれません。
2.4.4ではなく、2.4系の最新(2.4.7)に更新して確認して頂きたい
ところですが、2.4系はそろそろサポート終了なので、3.0系へのア
ップグレードをご検討ください。
Hiroyuki Anzai - 投稿数: 7
ご連絡が遅くなりました。
事象が再発致しました。
■再発した事象
・メンテナンス中に障害通知が送られる。
日時:2016/3/25 3:00
内容:サービスが停止しました。
・メンテナンス後に復旧通知が送られる。
日時:2016/3/25 3:30
内容:サービスが開始しました。
■サーバ側での監視状況
3/25(金) AM2:50-AM3:40のアイテム値
2:50:01-3:00:01 アイテム値:0
3:00:31-3:25:01 アイテム値:6
3:25:31-3:40:01 アイテム値:0
■Zabbixバージョン
管理サーバ Zabbix 2.4.7
エージェント Zabbix 2.4.4
管理サーバのバージョンをあげましたが、
同様の事象が発生しております。
Hiroyuki Anzai - 投稿数: 7
お世話になります。
本件ですが、下記内容でメンテナンス期間に障害アラートが
でなくなりました。
■変更点[メンテナンスプラン]
[メンテナンスタブ]
タイプ :データ収集なし
開始日時 :2016/3/16 0:00
終了日時 :2036/3/17 0:00
[期間タブ]
タイプ :毎日
スケジュール :毎1日 2:55
期間 :35m
タイプを「データ収集あり」→「データ収集なし」に変更したので、
障害アラートが上がらなくなりました。
しかし、Zabbixの説明を確認すると、「データ収集あり」でも
メンテナンス期間内に障害が解消していれば、アラートは
飛ばないとありますが、なにかあるのでしょうか。
ご回答頂ければ、幸いです。
宜しくお願い致します。
TNK - 投稿数: 4720
メンテナンスの時間帯が開始されてホストの状態が変化する
タイミングとアイテムの取得タイミングの問題の可能性が考え
られるので、もう少し余裕をもって前後とも長めにメンテナンス
期間を設定してみてください。
例えば、2:50からとか10分以上の余裕を持たせてみてくださ
い。
Hiroyuki Anzai - 投稿数: 7
ご連絡が遅くなりまして、失礼致します。
ありがとうございます。
実際に試してみたいと考えております。
ご対応ありがとうございます。
本件は、クローズさせて頂きます。