仮想ゲストマシンのデータが欠落する

いつもお世話になっております。
ご存知の方がいらっしゃいましたらご教示頂ければ幸いです。

<<環境>>
zabbix 2.2.3
mysql Ver 14.14
CentOS release 6.5 (Final)
PHP 5.3.3

VMware vCenter Server 5.1.0 build-1064983
Hypervisor: VMware ESXi 5.1.0 build-1065491
Guest: Vyatta Core 6.6 R1

<<状況>>
現在上記環境にてテスト運用を行っておりますが仮想ゲストマシンのメモリをグラフで確認した時に所々データが欠落しているように見えています。
この状況について他の監視項目をみても同じようなタイミングで欠落しているように見えます。
※添付画像をご参照ください。

このような場合、どのようなところから確認したらよろしいのでしょうか。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

まずは、Zabbixのログを確認してください。
グラフ、もしくは最新データの値を参照して、値が取得できていない
時刻を確認して、その前後を特に確認してみてください。

あと、Zabbixサーバを稼働させているサーバの負荷状況はいかがです
か?
OSとしての負荷状況だけではなく、Zabbixサーバの各プロセスのbusy
率なども確認してみてください。

ついでになってしまいますが、Zabbixのバージョンが2.2.3と古い
ようですので、様々な脆弱性の対応も行われたより新しいバージョ
ンを利用されることをお勧めします。

あとMySQLのバージョンに14.14と書かれていますが、そのようなバ
ージョンのMySQLはまだリリースされていません。
最新のバージョンは、5.7.5だったと思いますが、CentOS 6.5に標
準的に用意されているのは、5.1.7までです。
どのようにして確認されましたか?
今回の問題には関係ないかもしれませんが、正しいバージョン情報
をお教えいただけないと、正しい問題解決ができない場合がありま
すのでご注意ください。

ユーザー まる の写真

TNK様、

早速のコメント有難うございます。

取り急ぎ誤りの訂正を。
MySQLの確認ですが、

# mysql -V

にて確認いたしましたがツールのバージョンと混同しておりました。失礼いたしました。
以下が正しいバージョンとなります。

mysql -uroot -D mysql -e "select version ()"
+------------+
| version () |
+------------+
| 5.1.73 |
+------------+

ご教示頂きましたログ、負荷状況につきまして確認いたします。

ありがとうございます。

まずは訂正、お礼まで。

ユーザー まる の写真

お世話になります。

ログ、負荷状況について確認してみました。

現象発生期間前後の状況は以下の通りでした。
- zabbixサーバーの負荷状況について確認しましたがデータ欠落時は特に負荷がかかるような状況が確認できませんでした。
- ログについてですが当該仮想ゲストマシンの現象発生前後に以下のような変化がございました。
[現象発生時]
3738:20140929:115214.527 item [xxxx-xxxx-xxxx-xxxx-xxxx:vmware.vm.memory.size.usage.guest[{$URL},{HOST.HOST}]] became not supported: Cannot set cURL option [10015]: Timeout was reached
[通常時]
3740:20140929:115718.004 item [xxxx-xxxx-xxxx-xxxx-xxxx:vmware.vm.memory.size.usage.guest[{$URL},{HOST.HOST}]] became supported

このLogからTimeoutが発生しているように見えますが詳細についてご教示頂ければ幸いです。

ユーザー TNK の写真

そのログだけでは、タイムアウトが発生して、そのアイテムが取得
不可の状態になったとしかわかりません。

繰り返しになりますが、OSとしての負荷状況だけではなく、Zabbix
サーバの各プロセスのbusy率なども確認してみてください。

Zabbixサーバの各プロセスのbusy率ということばをご理解頂けてい
ないのであれば、テンプレート「Template App Zabbix Server」に
ある、「Zabbix busy xxxx processes, in %」の各値を確認してみ
てください。

ユーザー まる の写真

お世話になります。

zabbixサーバーの負荷状況について確認しておりましたが具体的な数値での提示がなかった点、失礼いたしました。
以下に当該時刻での各状況について示します。

Zabbix busy alerter processes, in %
2014/09/29 11:59:32 0
2014/09/29 11:58:32 0
2014/09/29 11:57:32 0
2014/09/29 11:56:32 0
2014/09/29 11:55:32 0
2014/09/29 11:54:32 0
2014/09/29 11:53:32 0
2014/09/29 11:52:32 0
2014/09/29 11:51:32 0.0169
2014/09/29 11:50:32 0

Zabbix busy configuration syncer processes, in %
2014/09/29 11:59:33 0.3051
2014/09/29 11:58:33 0.5085
2014/09/29 11:57:33 0.322
2014/09/29 11:56:33 0.3729
2014/09/29 11:55:33 0.3729
2014/09/29 11:54:33 0.3729
2014/09/29 11:53:33 0.2542
2014/09/29 11:52:33 0.3558
2014/09/29 11:51:33 0.3726
2014/09/29 11:50:33 0.3218

Zabbix busy db watchdog processes, in %
2014/09/29 11:59:34 0
2014/09/29 11:58:34 0
2014/09/29 11:57:34 0
2014/09/29 11:56:34 0
2014/09/29 11:55:34 0
2014/09/29 11:54:34 0
2014/09/29 11:53:34 0
2014/09/29 11:52:34 0
2014/09/29 11:51:34 0
2014/09/29 11:50:34 0

Zabbix busy discoverer processes, in %
2014/09/29 12:00:35 0
2014/09/29 11:59:35 0
2014/09/29 11:58:35 0
2014/09/29 11:57:35 0
2014/09/29 11:56:35 0
2014/09/29 11:55:35 0
2014/09/29 11:54:35 0
2014/09/29 11:53:35 0
2014/09/29 11:52:35 0
2014/09/29 11:51:35 0
2014/09/29 11:50:35 0

Zabbix busy escalator processes, in %
2014/09/29 12:00:36 0
2014/09/29 11:59:36 0.0508
2014/09/29 11:58:36 0
2014/09/29 11:57:36 0
2014/09/29 11:56:36 0.0339
2014/09/29 11:55:36 0
2014/09/29 11:54:36 0
2014/09/29 11:53:36 0.0339
2014/09/29 11:52:36 0
2014/09/29 11:51:36 0.0169
2014/09/29 11:50:36 0.0508

Zabbix busy history syncer processes, in %
2014/09/29 11:59:37 1.2203
2014/09/29 11:58:37 1.322
2014/09/29 11:57:37 1.0169
2014/09/29 11:56:37 0.9153
2014/09/29 11:55:37 0.9449
2014/09/29 11:54:37 1
2014/09/29 11:53:37 1.5418
2014/09/29 11:52:37 1.9228
2014/09/29 11:51:37 1.4101
2014/09/29 11:50:37 1.359

Zabbix busy housekeeper processes, in %
2014/09/29 11:59:38 0
2014/09/29 11:58:38 0
2014/09/29 11:57:38 0
2014/09/29 11:56:38 0
2014/09/29 11:55:38 0
2014/09/29 11:54:38 0
2014/09/29 11:53:38 0
2014/09/29 11:52:38 0
2014/09/29 11:51:38 0
2014/09/29 11:50:38 0

Zabbix busy http poller processes, in %
2014/09/29 11:59:39 0.0508
2014/09/29 11:58:39 0.0169
2014/09/29 11:57:39 0.0339
2014/09/29 11:56:39 0
2014/09/29 11:55:39 0.0508
2014/09/29 11:54:39 0.0339
2014/09/29 11:53:39 0
2014/09/29 11:52:39 0.0508
2014/09/29 11:51:39 0.0169
2014/09/29 11:50:39 0.1863

Zabbix busy icmp pinger processes, in %
2014/09/29 11:59:40 14.7458
2014/09/29 11:58:40 15.7797
2014/09/29 11:57:40 16.2881
2014/09/29 11:56:40 15.4915
2014/09/29 11:55:40 15.5763
2014/09/29 11:54:40 15.5593
2014/09/29 11:53:40 15.7404
2014/09/29 11:52:40 16.4831
2014/09/29 11:51:40 16.6667
2014/09/29 11:50:40 16.1247

Zabbix busy poller processes, in %
2014/09/29 11:59:44 9.0508
2014/09/29 11:58:44 7.539
2014/09/29 11:57:44 5.778
2014/09/29 11:56:44 5.5051
2014/09/29 11:55:44 6.1814
2014/09/29 11:54:44 4.9525
2014/09/29 11:53:44 5.715
2014/09/29 11:52:44 8.4737
2014/09/29 11:51:44 7.5555
2014/09/29 11:50:44 11.0025

Zabbix busy proxy poller processes, in %
2014/09/29 11:59:45 0
2014/09/29 11:58:45 0
2014/09/29 11:57:45 0
2014/09/29 11:56:45 0
2014/09/29 11:55:45 0
2014/09/29 11:54:45 0
2014/09/29 11:53:45 0
2014/09/29 11:52:45 0
2014/09/29 11:51:45 0
2014/09/29 11:50:45 0

Zabbix busy self-monitoring processes, in %
2014/09/29 11:59:46 0
2014/09/29 11:58:46 0
2014/09/29 11:57:46 0
2014/09/29 11:56:46 0
2014/09/29 11:55:46 0
2014/09/29 11:54:46 0
2014/09/29 11:53:46 0
2014/09/29 11:52:46 0
2014/09/29 11:51:46 0
2014/09/29 11:50:46 0

Zabbix busy timer processes, in %
2014/09/29 11:59:48 0
2014/09/29 11:58:48 0
2014/09/29 11:57:48 0.0169
2014/09/29 11:56:48 0
2014/09/29 11:55:48 0
2014/09/29 11:54:48 0
2014/09/29 11:53:48 0.0169
2014/09/29 11:52:48 0
2014/09/29 11:51:48 0.0169
2014/09/29 11:50:48 0

Zabbix busy trapper processes, in %
2014/09/29 11:59:49 0.0119
2014/09/29 11:58:49 0.0102
2014/09/29 11:57:49 0.0085
2014/09/29 11:56:49 0.0136
2014/09/29 11:55:49 0.0153
2014/09/29 11:54:49 0.0068
2014/09/29 11:53:49 0.0085
2014/09/29 11:52:49 0.0102
2014/09/29 11:51:49 0.0119
2014/09/29 11:50:49 0.0136

Zabbix busy unreachable poller processes, in %
2014/09/29 12:00:50 0.0339
2014/09/29 11:59:51 0.0339
2014/09/29 11:58:50 0.0678
2014/09/29 11:57:50 0.0339
2014/09/29 11:56:50 0.0339
2014/09/29 11:55:50 0.0169
2014/09/29 11:54:50 0
2014/09/29 11:53:51 0.0339
2014/09/29 11:52:50 0
2014/09/29 11:51:50 0
2014/09/29 11:50:50 0

Zabbix busy vmware collector processes, in %
2014/09/29 11:59:48 52.7559
2014/09/29 11:58:48 39.9627
2014/09/29 11:57:48 44.4847
2014/09/29 11:56:48 49.539
2014/09/29 11:55:48 29.7661
2014/09/29 11:54:48 56.3186
2014/09/29 11:53:48 37.4754
2014/09/29 11:52:48 50.5251
2014/09/29 11:51:48 15.3007
2014/09/29 11:50:48 66.1687

上記のうち、Zabbix busy vmware collector processesについて他よりも高めの数値ではありますが実際にデータ欠落した時間帯(11:52~11:57)についての値は欠落するほどの負荷と言う認識はございませんでした。

現在有効仮想ホスト数10、vCenter数3、仮想ゲスト数76、仮想ゲストアイテム数2244ではございます。
Zabbixサーバーの環境はvCPU2、メモリ4096MBです。

お手数をおかけして申し訳ございません。何かお気づきの点ございましたらご指摘頂けましたら幸いです。

ユーザー TNK の写真

history syncerなどのbusy率は高くないようですので、Zabbixサー
バやZabbixサーバが利用しているデータベースの部分がボトルネッ
クになっているわけではないように見えます。

ただ、vmware collectorのbusy率が高いのが気になります。
StartVMwareCollectorsの値は、どの程度の値に設定されています
か?

vmware collectorのbusy率が高いということは、取得しようとして
いるアイテムの個数が多くてVCenterやESXへの負荷が高まってしま
っているか、取得しようとしているアイテム数に対して、vmware
collectorのプロセス数が不足している場合が考えられます。

Zabbix側でVMware側の負荷を軽減するよう工夫はされているのです
が、VCenterやESXからVMwareのAPIを利用して値を取得する処理は、
VCenterやESXへ相当の負荷がかかってしまう場合があります。

VCenterやESXへの負荷が高まってしまっているような場合は、負荷
の程度が低ければZabbixサーバの設定(zabbix_server.conf)内の
Timeoutの時間を延長することで改善するかもしれません。

しかし、Timeoutを伸ばすと、1回1回のVMwareの値の取得処理が長
くなってしまう可能性が考えられます。
そうするとvmware collectorのbusy率が上がってしまうと思われま
すので、その時は、StartVMwareCollectorsの値を若干増やした方
がよいでしょう。

それでもVCenterやESXの負荷が高いようであれば、VMwareの値取得
の更新間隔を伸ばすなどして、VCenterやESXへの監視の為の負荷を
下げる工夫が必要になると思います。

VCenterやESXの負荷状況も考慮して、zabbix_server.conf内の
「StartVMwareCollectors」や「Timeout」の確認と調整を行って
みてください。

ユーザー まる の写真

TNK様、

ご指摘ありがとうございます。

StartVMwareCollectorsについて確認した所5となっておりました。

まずはこちらの値を増やして様子を見ようと思います。

ありがとうございます。

ユーザー まる の写真

ご無沙汰しております。

その後StartVMwareCollectorsについて設定を5から10、50、100と変化させてみました。

vmware collectorのbusy率は以前に比べ数%とかなり低くなりました。

ただデータ欠落はいずれも不定期に10分間程度発生しています。

このような場合、どのような点を確認すればいいのでしょうか。

ご教示頂ければ幸いです。

ユーザー TNK の写真

先日も書かせて頂いたと思いますが、VMware側の負荷状況はいかがですか?

VMware側の性能不足で応答できなくなっているのであれば、Zabbix側では
アイテムの取得間隔を伸ばして、VMware側に負荷をかけないよう調節する
しか無いと思います。

ユーザー まる の写真

コメント有難うございます。

確認ですが“VMWare”と仰っているのはzabbixの設定から“vCenterサーバーの負荷状況”と言う理解でよろしかったでしょうか。

StartVMwareCollectorsの値を変更した辺りからvCenterサーバーのメモリ使用量の振れ幅が大きく変化しているのを確認しました。
変更前は18~20%でしたが変更後は15~32%まで拡大した、という感じです。

StartVMwareCollectorsの値を変更する前にzabbixにオートディスカバリされていた監視対象はvCenterサーバー4、管理esxiサーバー9としていました。

一旦このあたりのサーバーも減らして様子を見てみようと思います。