zabbixサーバにてCPU使用率が上昇する
お世話になっております。
Zabbix 2.4.8にて監視を行っております。
Zabbixサーバにて普段はCPU使用率は約10%ほどでしたが、最近突然60%以上になりその後90%以上になることがあります。
(約2カ月ほど使用していましたがそんな事象は発生しませんでした。)
psコマンドで確認した結果どうやらzabbixのプロセスで問題があるようです。
コマンド : ps auxw | grep zabbix
対象プロセス : zabbix 29347 97.5 0.1 136312 5444 ? R 17:00 157:11
zabbix_server.logやzabbix_agentd.logにもめぼしいエラーは無く、
関連性があるか不明ですがmessagesを確認した結果としては
下記のメッセージが大量に出ているといった状況でした。
rsyslogd-2177: imuxsock begins to drop messages from pid XXXXXX due to rate-limiting
上記点に関しまして何かご教示いただければ幸いです。
wakaba - 投稿数: 228
広瀬です
> psコマンドで確認した結果どうやらzabbixのプロセスで問題があるようです。
> コマンド : ps auxw | grep zabbix
> 対象プロセス : zabbix 29347 97.5 0.1 136312 5444 ? R 17:00 157:11
上記のpsコマンドでは、zabbixユーザで動いているプロセスであるとしか判断出来ません。
Serverプロセスか、Agentプロセスであるのか判断できないとこちらも言及出来かねます。
psコマンドの引数関係なく、普通は以下のようにでると思います。
※以下はCentOS6での結果です。CentOS7/RHEL7でZBX3系統でもこの辺は大差ありません
[root@zbx ~]# ps -ef | grep zabbix
root 21389 1 0 2016 ? 00:00:00 zabbix_agentd -c /etc/zabbix/zabbix_agentd.conf
root 21391 21389 0 2016 ? 00:18:23 zabbix_agentd: collector [idle 1 sec]
root 21392 21389 0 2016 ? 00:00:01 zabbix_agentd: listener #1 [waiting for connection]
root 21393 21389 0 2016 ? 00:00:01 zabbix_agentd: listener #2 [waiting for connection]
root 21394 21389 0 2016 ? 00:00:01 zabbix_agentd: listener #3 [waiting for connection]
root 21397 21389 0 2016 ? 00:13:45 zabbix_agentd: active checks #1 [idle 1 sec]
root 24185 1 0 2016 ? 00:00:00 zabbix_server -c /etc/zabbix/zabbix_server.conf
root 24187 24185 0 2016 ? 00:04:29 zabbix_server: configuration syncer [synced configuration in 0.015399 sec, idle 60 sec]
root 24188 24185 0 2016 ? 00:02:02 zabbix_server: db watchdog [synced alerts config in 0.001964 sec, idle 60 sec]
root 24189 24185 0 2016 ? 00:04:02 zabbix_server: poller #1 [got 0 values in 0.000015 sec, idle 1 sec]
root 24190 24185 0 2016 ? 00:04:02 zabbix_server: poller #2 [got 0 values in 0.000007 sec, idle 1 sec]
root 24191 24185 0 2016 ? 00:04:02 zabbix_server: poller #3 [got 0 values in 0.000015 sec, idle 1 sec]
Zabbix2.x系からは、上記のようにどの役割をおこなっているプロセスが使用率が上がっているのかが
ある程度判断が付く様になっていますので、もう少し詳しいPSコマンド結果をご提示ください
また、再三のお願いとはなりますが、使用OSなども明記されるようにお願い致します。
msy - 投稿数: 24
広瀬様
回答ありがとうございます。
確かにps -efであれば調べられそうです。
次回発生した際に実施してみます。
尚、環境はAWSで構築しており、Amazon Linux 64bitとなります。
fripper - 投稿数: 495
rsyslog に出力されている「imuxsock ...(略)... rate-limiting」のメッセージについてですが
下記ページが参考になるかもしれません
http://www.tsugihagi.net/entry/2014/09/29/111823
大量の rsyslog メッセージ出力が実施された際に、rsyslog 側が当該メッセージを破棄してしまい
ログ出力を抑制する機能のようです
とりあえずは、PID が表示されている様子なので、その pid から ps コマンド等で特定すれば
「大量の rsyslog メッセージ出力の犯人」となっているプロセスは特定できるかと思います
原因となっているプロセスが特定できれば、原因の推測の一助となるかと思います
あとは、広瀬氏の書込にあるとおりで、詳細なプロセスのコマンドライン情報から
zabbix_server の複数プロセスの中でCPU利用率の高いプロセスの役割が特定できれば
原因が見えてくるかと思います
msy - 投稿数: 24
fripper様
回答ありがとうございます。
広瀬様よりいただいた対応方法と合わせて次回発生時に見比べてみます。