データストアの読取/書込操作で不定期にエラーが発生する件について
ESXiの監視を行うために、以下のキーの監視項目があります。
vmware.hv.datastore.read[{$URL},{HOST.HOST},datastore1,latency]
その項目の情報欄を確認すると、不定期(1時間に1~2回)の間隔にて、
「Timeout was reached」が表示されます。
zabbix_server.logを確認したところ、
6096:20190918:143132.712 item "ホスト1:vmware.hv.datastore.write[{$URL},{HOST.HOST},datastore1,latency]" became not supported: Performance counter data is not available.
6098:20190918:143133.718 item "ホスト1:vmware.hv.datastore.write[{$URL},{HOST.HOST},datastore1,latency]" became not supported: Performance counter data is not available.
が出力されていました。
しばらく(約10分ぐらい)すると、以下のログが出力され、zabbixのUI上も
エラーが出ていない状況になります。
6097:20190918:144114.883 item "ホスト1:vmware.hv.datastore.read[{$URL},{HOST.HOST},datastore1,latency]" became supported
6095:20190918:144115.884 item "ホスト1:vmware.hv.datastore.read[{$URL},{HOST.HOST},datastore1,latency]" became supported
また、複数のESXiを登録しており、エラーが出た際に、他のESXiの同じ情報を確認したところ、
エラーが発生していない状況です。
ネット上で色々と検索してみましたが、有力な情報がなく困っている状況です。
zabbix初心者ですが、どなたかご教授ねがいますでしょうか。
環境は以下のとおりです。
・Zabbix 4.0.12
・CentOS Linux release 7.6.1810
また、ESXiの登録は、zabbixインストール時に入っている「Template VM VMware」のディスカバリルールを利用し、
自動で登録させたものになります。
Yasumi - 投稿数: 380
同様の事象(Performance counterとLLDの頻繁なタイムアウト)を経験していますが、原因不明です。
以前質問を投げたこともありますが有力情報なしでした。
http://www.zabbix.jp/node/4785
TNKさんはvCenterの性能問題でタイムアウトしている可能性に言及していますが、
VMware collectorの問題なのか、VMwareAPIのPerformance counterとLLDの問題なのかそれ以外なのか分かっていません。
「しばらく(約10分ぐらい)すると」というのは、おそらく「取得不可アイテムの監視間隔」の設定が
「10分」になっているからだと思います。
sasso - 投稿数: 22
Yasumi さん
早々の返信ありがとうございます。
原因不明なんですね・・・
データストアの読取/書込操作の監視は、無効にするかどうか
検討しようと思います。
「Template VM VMware」で自動的に設定されており、
マクロの設定になっていたので、監視間隔の時間を確認したところ、
1mとなっていました。
データストアの読取/書込操作のエラーが発生している時間は、
どれをみても大体10分ぐらいです。
そこは大体の規則性があるにも関わらず、発生するタイミングは不定期というところが、
とても気になります。
TNK - 投稿数: 4760
Zabbixサーバーのタイムアウトの設定を伸ばしてみましたか?
デフォルトでは10秒でタイムアウトしてしまったと思うので、値の
取得にそれ以上の時間がかかるようであれば、デフォルトの値より
も長い時間に設定してみてください。
あと、Yasumiさんが書かれている通り、取得不可になったアイテム
は、デフォルトでは10分後に再度取得できるか値の取得を試みます。
取得不可になった場合には、アイテムの監視間隔でのリトライでは
ありません。
Yasumi - 投稿数: 380
※レス撤回します
sasso - 投稿数: 22
TNK さん
コメントありがとうございます。
タイムアウトの設定について、デフォルト10秒だったところを
実験的に120秒に設定変更して、一晩寝かせてみたところ、
完全には解消しませんでした。
「あと、Yasumiさんが・・・」の部分について、
承知いたしました。
ありがとうございます。
Yasumi - 投稿数: 380
私の環境で現状分かっていることだけ記載しておきます。
①Zabbixで「Performance counter data is not available.」となっている時間帯のデータを
Web Clientから確認すると、パフォーマンスカウンターのデータは残っている。
そのため、vCenterが取得しているパフォーマンスカウンターの問題ではない。
※VMwareAPIのPerformance counter から vmware collectorが情報を取得するときの、通信あるいは何らかの問題?
②「Performance counter data is not available.」は全ESXiや全VMやデータストアに共通して起きない。
特定のESXiの「Performance counter data is not available.」となっても、
そのESXiの配下にいるVMに「Performance counter data is not available.」が起きるわけではない。
そのため、特定のESXi、VM、データストアが原因ではない。