クラウド上のCPU使用率が高負荷となる現象について

お世話になっております。

AWS(Amazon Web Services)上のインスタンス(サーバ)を、zabbixを使用して監視しております。

しかし、とある1つのインスタンスにてCPU使用率が稀に100%に達する現象が発生しております。
※その他のインスタンスでは発生しておりません。

↓CPU使用率が100%となるリソース
・softirq
・iowait
・nice
・steal
・user
・system

stealが含まれておりましたので仮想環境特有の現象かとも考えたのですが、zabbixの不具合の可能性もあり質問させて頂きました。
※AWSへも並行で問い合わせしております。

バージョンは1.8.2を使用しておりますが、上記のような事例等有りましたらご教示頂ければと存じます。

以上、ご確認のほどよろしくお願い致します。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー tsuzuki の写真

しかし、とある1つのインスタンスにてCPU使用率が稀に100%に達する現象が発生しております。
※その他のインスタンスでは発生しておりません。

上記は、Zabbixのプロセスが100%近くCPUを使用しているということでしょうか?
まずはそこを明確にしないとZabbixが原因か切り分けはできないかと思います。

逆に、Zabbixのプロセスが100%近くCPUを使用しているわけではないならば、Zabbixが原因ということは有り得ません。

ユーザー TNK の写真

申し訳ありませんが、

↓CPU使用率が100%となるリソース

というのが何をおっしゃりたいのかが理解できません。

・softirq
・iowait
・nice
・steal
・user
・system

に関しては、CPUのどのような処理がどのような割合で実行されて
いてどのような処理が多く行われているかなどを判別するものです。
これらにidle分を足し合わせれば、CPU全体を示すことになります。

例えば、iowaitの割合が大きければ、ディスクのI/Oが多く発生し
ていることが確認でき、あまりにも割合が大きいときは、ディスク
のI/Oが遅いために処理が追いつかないような状態になっているこ
とが推測されます。

また、CPUの利用率が100%になることは異常とは限りません。
処理でCPUの能力が必要であれば、CPU利用率が100%になることは十
分に考えられます。

まずは、そのような状態になるときに、そのインスタンス上でどの
ようなプロセスが動いているか、どのプロセスが多くのCPUを消費
しているかをご確認下さい。

ユーザー kodai の写真

今いただいている情報だけだと推測しかできないのですが、仮想化環境で時刻が大きくずれたりする場合に、dateコマンドで一気に時刻を修正するとCPU使用率のデータが狂うことがあります。

これは1分平均、5分平均、15分平均の値を収集するために、Zabbixエージェントが内部で時刻とデータを保持して計算を行っているためです。

推測でしかないので問題の解決にはならないかもしれませんが、ご確認ください。

ユーザー ysk_cs の写真

お世話になっております。

諸々ご指摘頂きありがとうございます。

グラフ画像を本メッセージに貼り付けられれば一番伝わりやすいかと思ったのですが、貼り付けられず結果うまく伝えることができておりませんでした。

現象としては、「処理しているプログラムがないにもかかわらず、稀(1日に1回程度)にCPU使用率が100%となるタイミングがあり、その時間のvmstatを確認してもCPUはほとんど使用されていない」というものでした。

よって、zabbixの不具合、またはクラウドを使用していることに起因する問題ではないかと判断した次第です。

ご指摘頂いた時刻の変更による問題は認識していなかったので、有力な情報となりました。ありがとうございます。確認してみます。

以上、よろしくお願い致します。

ユーザー TNK の写真

Amazon Linuxを利用しているサーバをZabbix 1.8.3〜1.8.5を使っ
て監視していて、そのような状態になった記憶がありません。
# 見逃していただけかもしれませんが。 (^_^;)

ご参考までに、

・利用されているOSのディストリビューションとバージョン
・利用されているリージョン
・Zabbixサーバをそのインスタンス上で稼動させているか
・ZabbixサーバもAWS上で稼動させているか

をお教え頂けませんでしょうか?

ユーザー ysk_cs の写真

お世話になっております。

ご質問頂いた件、以下に回答致します。

・利用されているOSのディストリビューションとバージョン
 →CentOS5.5(64bit)

・利用されているリージョン
 →東京リージョン(aゾーン)

・Zabbixサーバをそのインスタンス上で稼動させているか
 →zabbixサーバは別サーバ上にて稼働中

・ZabbixサーバもAWS上で稼動させているか
 →zabbixサーバはオンプレミス上で稼働中(VPNにて接続)

なお、同一モジュール・ミドルウェアを稼働させたインスタンスをbゾーンに作成してしばらく様子を見たところ、同様の現象は発生しておりませんでした。やはりaゾーンに作成したインスタンスと物理的に相乗りしている他インスタンス(誰のものかはわからない)が影響しているのでしょうか。。。
ちなみにaゾーンのインスタンスは相変わらずniceやstealの値が100%に達する状態が発生しております。

以上、よろしくお願い致します。

ユーザー TNK の写真

ご回答頂きありがとうございました。
すぐに取り掛かれないかもしれませんが、同じような現象が
発生しないか確認してみようと思います。