value cache is fully used について
いつもお世話になっております。
---
CentOS: 6.6
zabbix-server: 2.4.3
zabbix-agent: 2.4.3
MySQL: 5.5
---
先日zabbix_server.logで以下のログが5分おきに出力され始めました。
value cache is fully used: please increase ValueCacheSize configuration parameter
その状況下で、自前APIツール経由で、
1000回程度のアイテム・トリガー・アクション・ユーザーのget、createを連続して実行したところ、
zabbix[vcache,cache,misses] が増加し、
各ホストに設定してあったagent.ping.nodata(11m)のトリガーがすべて障害となりました。
実際、各agent.pingのアイテム値は11分以上取得されていませんでした。
こちらの内容を拝見しました。
http://www.miraclelinux.com/tech-blog/7t2e6u
こちらの問題は、2.4.3でも改善されていない認識で正しいでしょうか?
また、上記ログが出力される状況として、
『キャッシュをリリースするときに充分に空きがないと判断された場合』
とあるのですが、ValueCacheSize(256MBに設定)の90%以上がfreeとなっていたのに、
なぜ充分な空きがないと判断されたのでしょうか?
また、上記ログが出力され始めてしまうと、DBの読み込み、書き込みの遅延は発生するのでしょうか?
質問内容が多く申し訳ありませんが、ご存知の方がいらっしゃいましたら、
お答え頂けましたら幸いです。宜しくお願い致します。
TNK - 投稿数: 4769
紹介されたリンクに書かれている問題に関しては、2.5.0でFixedと
されているので、リリースされるものとしては3.0で修正されると
思われます。
ZBXNEXT-2474
Improve value cache low memory mode handling
https://support.zabbix.com/browse/ZBXNEXT-2474
キャッシュ関連の処理は、2.4.3以降もいくつか改善されていたと
思いますので、2.4系を利用されるのであれば、2.4系の最新版を利
用することをお勧めします。
古いバージョンのZabbixでは、Value Cacheを一度使い切ってしま
うと、zabbix_serverのプロセスを再起動しないと正常に機能しな
かったと思います。
上にも書いた通り、一度使い切ってしまうと回復しない場合がある
ようなので、確認された時点では空きが90%でも正常に機能しない
状態になっていたのではないでしょうか。
実際に検証してはいませんが、Value Cacheが利用できない状態で
あれば、直接データベースとやり取りして、その処理の終了待ちを
したりするようになるはずですので、zabbix_server自体の処理は
遅くなる場合があるでしょう。
zabbix-amp - 投稿数: 5
素早い回答を頂き、ありがとうございます。
value cache is fully used: please increase ValueCacheSize configuration parameter
上記ログが出力され始めた時点の、ValueCacheのfree率(zabbix[vcache,buffer,pfree])
を確認したんですが、それが90%程度となっておりました。
ValueCacheSizeに割り当てた容量の10%を使用した時点で、
value cache is fully usedとなってしまうのが、おかしいように見えます。。。
どう判断してそうなるのかが分からず、
お分かりになりましたら教えて頂けますでしょうか。
TNK - 投稿数: 4769
利用されている環境でのホストの登録数や各ホストに登録されてい
るアイテム数や監視間隔、APIを利用して登録されたホストやアイ
テムなどの規模はわかりませんが、処理しなければならないアイテ
ム数や履歴データの量が急激に増加した場合、一度により大きなサ
イズのキャッシュ領域を確保しようとしたのかもしれません。
ただし、2.4.3と古いバージョンを利用されているので、他のバグ
で問題が引き起こされている可能性も考えられます。
まずは、2.4系であれば、すでに2.4.7までリリースされているので、
2.4.7で同様の問題が発生するか試してみてください。
zabbix-amp - 投稿数: 5
TNK様
ご回答ありがとうございます。
環境は以下の通りです。
---
ホスト数: 約1000
アイテム数: 約20000
トリガー数: 約30000
監視間隔: 5分
NVPS: 140
---
ご指摘の通り、2.4最新版での状態確認を検討してみようと思います。