agent2(Windows)が特定のサーバで頻繁に落ちます

はじめまして

Windows Server 2019をagent2で監視しているのですが2台あるADサーバでだけ日に数度停止して難儀しております。
規模はWindows20台ほどで他のサーバは特に偏りなく日に1,2台落ちます。
Linux30台ほどありますが問題有りません。

Zabbixのバージョンはサーバ、agent2共に5.0.8です。

監視対象のサーバのハードウェアリソースは余裕ある状態です。
停止時に採取したagentログを見るとほぼ毎秒以下のようなものが出ています。
--------------------------------------------------------------------------------------------------------------------------------------
.........
2021/03/12 13:34:19.008935 plugin 'WindowsPerfMon' collector failed: 返すべきデータがありません。
2021/03/12 13:34:20.014855 plugin 'WindowsPerfMon' collector failed: 返すべきデータがありません。
2021/03/12 13:34:21.002894 plugin 'WindowsPerfMon' collector failed: 返すべきデータがありません。
.......
--------------------------------------------------------------------------------------------------------------------------------------

ADと他のサーバの監視の違いと言っても、dns.exeやdfssvc.exeなどADの機能に関係するプロセスをproc.numで取得している程度です。

試しに、buffsizeをデフォの100から300に変更してみましたが、改善せず、というより明確には言えませんが頻度が上がったように思います。

どなたか知見のある方おいでましたらお助けいただけませんでしょうか。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー Yasumi の写真

Windowsのパフォーマンスカウンター情報の取得に関するエラーかと推察します。

一度「perf_counter」「perf_counter_en」を利用したアイテムを無効化して、状況を切り分けしてはどうでしょうか。

※毎秒ログが出るとありますが、アイテムの監視間隔の設定値はどのようにしていますか?

ユーザー madapple の写真

Yasumiさん、ありがとうございます。

ご指摘頂いたアイテムの無効化や、ディスカバリで追加された挙げ句に監視不能になっているアイテム(WpnUserServiceやCDPUserSvc)の無効化、削除にディスカバリの停止を行い毎秒ログが吐かれる状態は解消しました。
しかしADが落ちる状況は継続しております。

アイテムの監視間隔は主に1分(これより短いものはありません)で、有効なアイテム数は70ほどです。

また、コメント頂く前にagent2が落ちたタイミングでサーバ側のログに
failed: another network error, wait for 15 seconds
が出力されていることをみて サーバのstartpollersを5から25、50と上げてみましたが、こちらも効果が見られませんでした。

ADサーバ以外の20台のでも一日1,2台程度落ちますが、そちらでは agent2のログに"buffer is full, cannot store persistent value"が
出力されており気になっていますが、肝心のADのログではこのメッセージは見られません。
また、最初に上げたようにbuffsizeを増やした際にはむしろ頻度が上がりました。

もう、Windowsのサービス回復機能で落ちる度に上げる方向に逃げたい気持ちです。

ユーザー Yasumi の写真

「failed: another network error, wait for 15 seconds」は字面の通り、15秒以上通信不可になったことに関する内容です。
ですが、こいつはZabbixエージェント2がDownしたことで出力されていると推測されるので、原因ではないです。

原因はおそらく「buffer is full, cannot store persistent value」ではないでしょうか。
エージェント側のBufferSizeを超える長大なログをZabbixサーバに送信しようとして、失敗しています。

監視対象ホストのログ監視で、infoログを含めたあまりにも多くの情報を取得するような設定をしていませんか?
そして、大量のログが出力されていないですか?
ログをZabbixサーバに送信する処理時に、監視対象ホストのCPU負荷が上がり、ZabbixエージェントがDownしているのではないでしょうか。
ログ監視のアイテムを無効化して状況の切り分けをしてみてください。

なお、pollerプロセスの負荷率はどれくらいですか?
50%程度を超えていないのであれば、むやみに上げても効果はありません。
※相応のリスクもあるので50から正常値に下げてください。