特定のポーリングのキューが溜まってしまう
お世話になっております。
特定の時間(hh:mm:ss)に走った、Zabbixエージェントへのポーリングと Trapper の受信のみZabbixのキューに溜まりアイテム収集ができなくなる事象が発生しました(300アイテム程度)。
その他のアイテム(hh:mm:ss にポーリングが走ったアイテム以外)は正常に収集されておりました。
zabbix-serverの再起動後にキューは流れて正常に戻ったのですが、サーバ側で特にその時間に処理が走ってるわけでもなく、バグを踏んでいるのではないかと不安に思っております。
【環境】
OS : CentOS 5.4
zabbixのVersion : zabbix-server-1.8.13-1
DB : mysql-5.6.12 InnoDB
アイテム数 : 20000
トリガー数 : 8000
DBのデータサイズ : 10GB
CPUのIdleは常時(事象発生時も)80%以上となっており、MysqlのBufferPoolのFree領域も余っているためリソースの問題ではないと思っております(IOWaitも特に溜まってはいませんでした)。
Zabbixのログ、Mysqlのログに何も出力が出ておらず、類似のバグ情報も見当たらなかったため、原因と思われる部分に心当たりがあればご教示頂きたいと思っております。
どうぞよろしくお願い致します。
TNK - 投稿数: 4753
アイテムの更新間隔とアイテムの個数によっては、PollerやTrapperのプロセス数の
調整を行わないと、アイテムの値を取得して保存する処理が間に合わずに、キュー
に溜まってしまう可能性があります。
それぞれのプロセス数のチューニングは行われましたか?
各プロセスのbusy率なども確認してみてください。
https://www.zabbix.com/documentation/1.8/manual/config/items#internal_ch...
最後に、1.8.13以降でも色々なセキュリティの脆弱性を含む不具合が発見され修正
されていますので、最新版への更新をご検討ください。
gggame - 投稿数: 4
ありがとうございます!
確認したところ、busy率が平均で50%程度でした。
「1秒あたりの監視項目数(Zabbixサーバの要求パフォーマンス」が140程度で、今回キューに溜まったデータが全て 1秒単位で同じ時間の 300アイテムなので、集中的に1秒間に300アイテムの監視が走って、busy率が100%になったということで計算上も合いそうです。
リソースに余裕もあるので、プロセス数を増やしました。暫く様子を見ようと思います。
>最後に、1.8.13以降でも色々なセキュリティの脆弱性を含む不具合が発見され修正
>されていますので、最新版への更新をご検討ください。
Zabbix2.2を待っていたんですが(半年くらい前から) 最新版の適応も検討してみます。
ご助言ありがとうございました。