Aget-Ping監視のみエラーになる現象について

いつも参考にさせていただいております。

以下の構成のZabbixにて一か月に二度、一時間ほどAgent-Ping監視のみが疎通不可となる現象が発生しております。

2台のZabbixから同じ端末の監視を行っておりますが、必ず発生するZabbixサーバーは同じで時間や対象サーバーは発生するたびに違います。
正常なZabbixサーバーではすべて疎通が取れているのと、他のエージェントを使用した監視は問題ないのでAgent側には問題がないと考えております。

構成情報

Zabbixバージョン:2.4.8
監視アイテム数:4495
トリガー数:972
パフォーマンス:6.93
StartPoller=5

エラー情報:
障害が発生するZabbix-serverにて"value cache is fully used: please increase ValueCacheSize configuration parameter"が発生しておりますが、直接的な原因なのかが不明です。
※value cacheは8M

対象の監視情報
アイテム:Agent ping
キー:agent.ping
監視間隔:120秒
トリガー:{template:agent.ping.nodata(5m)}=1

障害時のログなどが取得できておらず申し訳ございませんが、何か気になる情報や原因調査のアドバイスをいただければと思います。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。

広瀬です。

とりあえず、エラーとして提示されているValueCacheはあくまでもZabbixServer内部で
演算処理に使われる機構のキャッシュですので、直接的にアイテム取得や監視対象に
関わる処理には使われないと思います。ただし、トリガー条件式の判断に誤植を与える
可能性はありそうです
このエラーはValueCacheの値を引き上げて見て様子見て頂ければとおもます。

2台のZabbixサーバから同一の監視対象ホストを確認されているとの事ですから、監視
対象のサーバには2つAgentが入っており、且つそれぞれ違うポートで起動されている
(=ソース導入されている?)という環境だとお見受けしますが、違いますでしょうか?

 ※もし違う場合は訂正願います

環境からくる問題の可能性もあり得なくはないですが、通信上の問題かそれ以外かは、
やはりAgent(ログはそれぞれ)側、Server側のログも見ないと判断が厳しいと思います。
また、当該時間帯に、監視対象サーバの負荷状況や通信状況がどうであったかも判断
材料にはなるかもしれません<ZabbixServerの負荷状況も(特にZabbixインターナル系)

ユーザー J34343 の写真

ご回答ありがとうございます。

Zabbix-Agentに関しては複数は入っておらず一つのエージェントから複数のZabbixサーバーを宛先に設定しております。

今後の対応についてはおっしゃる通りまずはリソースの状況を確認させていただき、
状況を確認しValueCacheの設定を見直してみたいと思います。

ありがとうございました。

広瀬です

あ、Server/ServerActiveパラメータに2個以上のZabbixServerのIPを列挙されているんですね。
失礼しました<あまり手法としては取らないので、失念してました

先に回答しました通り各障害時のサーバのリソース状態は確認いただくとしても、やはりそうなる
と、ログも重要になってきそうですね。何が起こってそうなったのか判断が難しい気がします。