Zabbix alerter processes more than 75% busy
フォーラムの皆様
毎度、お世話になっております。
Zabbix alerter processes more than 75% busyのアラートが発生し、値が数日前より100%に張り付いており、
復旧方法を模索しております。
発生当時の経緯として、複数の監視対象機器の電源断等により大量のアクション(アラートメール)が
実行されたので、その一時的な影響と見込んでおりましたが、アクション(アラートメール)がトリガーされない
安定した状態が継続しているにも関わらず、Zabbix alerter processesが100%に張り付いたが継続しております。
【試してみた対処】
①Zabbix-serverのサービス再起動 ⇒復旧せず
②StartPollersの値変更:5 → 30
⇒復旧せず
③以下のURLの確認 Bug?
https://support.zabbix.com/browse/ZBX-8835
メディアタイプ:jabberの無効 ⇒復旧せず
【環境情報】
Zabbix-ServerのVersion:2.2.7
OS:CentOS 6.6
監視負荷の規模(Zabbixサーバの状態)
パラメータ 値 詳細
Zabbixサーバーの起動 はい localhost:10051
ホスト数 (有効/無効/テンプレート) 68 28 / 0 / 40
アイテム数 (有効/無効/取得不可) 1548 1386 / 0 / 162
トリガー数 (有効/無効) [障害/正常] 457 456 / 1 [1 / 455]
ユーザー数 (オンライン) 3 1
1秒あたりの監視項目数(Zabbixサーバーの要求パフォーマンス) 12.3 -
以上です、切り分け対処のご指南お願いいたします。
zinten - 投稿数: 69
tako8さん
alertsテーブルに未処理のアクションが溜まっていないですか?
以下のSQLを実行して未処理のアクションがないか確認してみてください。
# SELECT * FROM alerts WHERE status = 0;
tako8 - 投稿数: 5
zintenさん
ご連絡ありがとうございます。
以下の通り試してみました。
mysql> select count(*) from alerts where status = 0;
+----------+
| count(*) |
+----------+
| 104 |
+----------+
1 row in set (0.00 sec)
単純に過去のアクション(アラートメール等)が処理しきれていないということでしょうか?
よろしくお願いいたします。
zinten - 投稿数: 69
>単純に過去のアクション(アラートメール等)が処理しきれていないということでしょうか?
おそらくそうではないかと。
アクションの内容にもよりますがalerterによりシーケンシャルにアクションが実行されているので
メールサーバ等に到達できないなど何かしら時間がかかるアクションを設定している場合に
未実行のアクションが溜まってしまうことがあります。
はけるまでゆっくり待つか、
少々乱暴ですがalertsテーブルのstatusが0の行を1(成功)か2(失敗)に書き換えて
Zabbixサーバをrestartすれば下がると思います。
tako8 - 投稿数: 5
zintenさん
コメントありがとうございます。
一斉アクション(メール通知)となる負荷検証を何パターンかやってみました。
トリガー/アクションが一斉に重なる場合は本アラームが出るのは仕方ないですね。
メールサーバの設定等で多少改善するのでそのあたりの対処をしようと考えてます。
いろいろご教授ありがとうございました。