Zabbix alerter processes more than 75% busy

フォーラムの皆様
毎度、お世話になっております。

Zabbix alerter processes more than 75% busyのアラートが発生し、値が数日前より100%に張り付いており、
復旧方法を模索しております。 

発生当時の経緯として、複数の監視対象機器の電源断等により大量のアクション(アラートメール)が
実行されたので、その一時的な影響と見込んでおりましたが、アクション(アラートメール)がトリガーされない
安定した状態が継続しているにも関わらず、Zabbix alerter processesが100%に張り付いたが継続しております。

【試してみた対処】
①Zabbix-serverのサービス再起動  ⇒復旧せず
②StartPollersの値変更:5 → 30
  ⇒復旧せず
③以下のURLの確認 Bug?
https://support.zabbix.com/browse/ZBX-8835
 メディアタイプ:jabberの無効  ⇒復旧せず

【環境情報】
Zabbix-ServerのVersion:2.2.7
OS:CentOS 6.6
監視負荷の規模(Zabbixサーバの状態)
パラメータ        値     詳細
Zabbixサーバーの起動 はい localhost:10051
ホスト数 (有効/無効/テンプレート) 68 28 / 0 / 40
アイテム数 (有効/無効/取得不可) 1548 1386 / 0 / 162
トリガー数 (有効/無効) [障害/正常] 457 456 / 1 [1 / 455]
ユーザー数 (オンライン) 3 1
1秒あたりの監視項目数(Zabbixサーバーの要求パフォーマンス) 12.3 -

以上です、切り分け対処のご指南お願いいたします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー zinten の写真

tako8さん

alertsテーブルに未処理のアクションが溜まっていないですか?
以下のSQLを実行して未処理のアクションがないか確認してみてください。

# SELECT * FROM alerts WHERE status = 0;

zintenさん

ご連絡ありがとうございます。

以下の通り試してみました。 
mysql> select count(*) from alerts where status = 0;
+----------+
| count(*) |
+----------+
| 104 |
+----------+
1 row in set (0.00 sec)

単純に過去のアクション(アラートメール等)が処理しきれていないということでしょうか?

よろしくお願いいたします。

ユーザー zinten の写真

>単純に過去のアクション(アラートメール等)が処理しきれていないということでしょうか?
おそらくそうではないかと。
アクションの内容にもよりますがalerterによりシーケンシャルにアクションが実行されているので
メールサーバ等に到達できないなど何かしら時間がかかるアクションを設定している場合に
未実行のアクションが溜まってしまうことがあります。

はけるまでゆっくり待つか、
少々乱暴ですがalertsテーブルのstatusが0の行を1(成功)か2(失敗)に書き換えて
Zabbixサーバをrestartすれば下がると思います。

zintenさん

コメントありがとうございます。
一斉アクション(メール通知)となる負荷検証を何パターンかやってみました。
トリガー/アクションが一斉に重なる場合は本アラームが出るのは仕方ないですね。
メールサーバの設定等で多少改善するのでそのあたりの対処をしようと考えてます。

いろいろご教授ありがとうございました。