リソースに変化は無いのに、queueが溜まる
お世話になっています。
zabbix1.8.15を使用しています。
この数日、zabbix_server.log に「failed: first network error, wait for 15 seconds」が多発し、
また、監視対象が unreachable となる現象に悩まされております。
Zabbixサーバ自身も監視しているので、グラフを参照したところ、load average, CPU使用率、メモリ使用率に
取り立てて変化は無いものの、queueが滞留していることがわかりました。
24時間のグラフを添付させて頂きます。
この状況から、zabbixサーバには問題は無く、ネットワーク等その他の要因によるものだと
考えておりますが、他にzabbixで確認すべきことはありますでしょうか。
恥ずかしながらネットワークの監視は行なっておらず、原因の切り分けに苦慮しております。
まずはzabbixに問題ないことを確定したいと考えております。
以上、何卒よろしくお願いいたします。
- zabbix.PNG (162.38 KB)
kodai - 投稿数: 1341
可能性としては、
- ネットワークの遅延
- 監視対象がSNMPデバイスの場合は、監視対象の負荷
- ユーザーパラメータを利用している場合は、スクリプトの処理にかかっている時間が長い
- Zabbix DBのパフォーマンス不足
などがあると思います。キューの画面の右上から「詳細」を選ぶとどのアイテムがキューに溜まっているかが分かりますので、そこから切り分けができるかもしれません。
ikushin - 投稿数: 12
kodai様
丁寧なご回答、誠にありがとうございます。
弊社の環境を鑑みると、可能性としてはネットワーク遅延か
DBのパフォーマンス不足になります。
DBのパフォーマンス不足の場合は、CPUやメモリのグラフに変化が
あると思い込んでいたのですが、必ずしもそうではないのですね。
参考にさせて頂きます。
ありがとうございました。