監視アイテムにデータが入ってこない

aisneyと申します。

現在、業務でzabbix3.0.15/3.0.10を利用して、
監視を行っております。

最近、アイテムが監視データを取り込まない事象が、
発生しております。アイテムの監視間隔は1分ですが、
4時間経っても更新されず。
(最新データからアイテムが取得しているデータ値や時間がずっと同じもの。
 ただし、更新されているアイテムも存在する。pingはOKで、diskはNG等。
 また、同じアイテムキーでも、とあるプロセスの監視アイテムだと更新されたりされなかったり)

なお、アイテムは、すべてテンプレートにて設定し、設定ミスなどがないことは確認済です。
(過去にその設定で監視ができており、アイテムを取得しなくなった)
zabbix-serverやagentのログには、らしきエラーは出力されていない。
インフラ(CPUやDISK、memory)もサーバ、クライアントとともに問題なし。

・対応内容
  上記のようなステータス確認やログ確認。
  サーバとクライアントの再起動を実施。
  
上記のような状態に対し、その他どのような解決のためのアプローチがあるか
お教えいただけると助かります。

1つは、効果があるかどうかわかりませんが
ログでデバッグモードを利用することかと思ってますが、
ほかに手法がないか、お伺いさせていただきます。

以上、よろしくお願いいたします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー Yasumi の写真

Zabbixインターナルプロセス群の負荷率を確認してみてください。

あと、アイテム更新間隔を10分などにしてしばらく待ってみてください。

ユーザー aisney の写真

Yasumi様

ご返答ありがとうございます。

確認すると、各busy polllerの値が100%になっておりました。

色々調査をすると、DNSサーバのbindプロセスがダウンした時に、
上記状態になるということが分かっております。
(zabbixのホスト登録はIPではなく、DNSで実施しているので、
 名前解決の遅延が影響。DNSスレーブの動作に問題あり)

ただ、今回のことで、zabbixのサーバやエージェントのログから、
上記のような状態になっているということが判断できない点が気になってます。

キューがフルになったら、ログにエラーを出さない?
監視の問い合わせがタイムアウトしたらエラーを出さない?

ログを見れば、それらの状態は分かると思っていましたので、
少々zabbixサーバ自体の監視を考えなおさないといけないと思っております。

ユーザー Yasumi の写真

ログについては手元にサンプルがないので、
実際にログレベルを変更して出力されるか確認してみてください。

取得不可になったアイテムが存在するとunreachable pollerの
負荷率が上昇するので、こちらの負荷率上昇の監視をおすすめします。

ユーザー yk_taiko の写真

もしポーリング系の監視が遅延している状況なら、
「Zabbixインターナル」アイテムでキューのアイテムを監視すると良いと思いますよ

・zabbix[queue,,]
https://www.zabbix.com/documentation/3.0/manual/config/items/itemtypes/i...

ユーザー aisney の写真

ご返信ありがとうございます。
反応が遅くなりすみません。

>Yasumi様
ログのデバッグレベルを上げることについては、
容易に実現できないため、本件が多発するようなら、
試してみたいと思っております。
(DNSのマスタを落とさない限りは再発しないので、
とりあえず、現場の雰囲気としては様子見となってます)

>yk_taiko 様
デフォルトのログで、今回の件を検知できなかったので、
zabbixの性能指標も、監視に加えるべきとは思いますが、
とりあえず、様子見(監視設定の費用の問題)を決め込んでます。

以上、私の質問にお時間を割いて頂き、ありがとうございました。