first network errorとconnection restoredが繰り返し出力される

いつもお世話になっております。

サーバ側
バージョン:Zabbix2.2.7
OS: CentOS 5.4

エージェント側
バージョン:Zabbix2.2.5
OS: Windows Server 2008 R2 SE

Zabbixサーバのzabbix_server.logに
あるサーバ1台から登録しているアイテムでfirst network errorが出力され、
その後
resuming Zabbix agent checks on host "hostname": connection restored
という文字列が出力される
という事象が繰り返し発生しています。

エージェントを再起動してみたのですが、結果は変わらず出続けています。
どうすれば止まるのでしょうか。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

エラーログが出力されているのであれば、省略せずにすべてのメッ
セージをご提示ください。

頂いている情報だけでは、Zabbixエージェントの応答が遅くて、タ
イムアウトが発生しているか、ZabbixサーバとそのWindowsのサー
バとの間のネットワークに問題が発生していることが考えられます。

前者であれば、Zabbixサーバ側Zabbixエージェント側両方の設定の
Timeoutの値を伸ばしてみてください。

ユーザー ogata の写真

失礼しました。

1515:20151225:143210.716 Zabbix agent item "jmx[java.lang:type=GarbageCollector,name=PS MarkSweep][CollectionCount]" on host "servename" failed: first network error, wait for 15 seconds
1511:20151225:143225.900 Zabbix agent item "perf_counter[\PhysicalDisk(_Total)\Avg. Disk Write Queue Length]" on host "servername" failed: first network error, wait for 15 seconds
1577:20151225:143240.860 resuming Zabbix agent checks on host "servername": connection restored
1577:20151225:143241.880 resuming Zabbix agent checks on host "servername": connection restored
1499:20151225:143328.212 Zabbix agent item "proc.num[myAgtSvc.exe]" on host "hostname" failed: first network error, wait for 15 seconds
1587:20151225:143343.922 resuming Zabbix agent checks on host "servename": connection restored

と繰り返しfirst network errorとresumingが出力されています。

ZabbixエージェントとZabbixサーバのタイムアウトはどう違うのでしょうか。
今、Zabbixサーバ側は30と設定してZabbixエージェント側はデフォルトの3のままになっています。
Zabbixサーバのタイムアウト値を伸ばしてもZabbixエージェントのタイムアウト値も伸ばさないと駄目なのでしょうか。

ユーザー TNK の写真

Zabbixサーバのタイムアウト値を伸ばしてもZabbixエージェントのタイムアウト値も伸ばさないと駄目なのでしょうか。

Zabbixエージェント経由で取得するアイテムの値に関しては、値の
取得にデフォルトの3秒以上かかってしまうような場合は、Zabbix
エージェント側も変更する必要があります。

jmx関連は、Zabbixエージェント経由ではないので、別の問題かも
知れません。
ホストのインターフェースとして、JMXのインターフェースを登録し
ていますか?
アイテムのタイプとして「JMXエージェント」を選択していますか?

ユーザー ogata の写真

JMXに関しては別ホスト名で登録し、エージェントのインターフェースに別ポートを指定して登録しています。
アイテムのタイプは「Zabbixエージェント」で登録しています。

今までこの状態で特にエラーは吐かれていなかったです。

ユーザー TNK の写真

値はちゃんと取得できているのですか?
アイテムの状態が取得不可になっていませんか?

キーjmx[]は、Zabbix Java Gateway経由で値を取得する時に利用するものです。

ユーザー ogata の写真

ホストのZabbixエージェントインタフェースでポート10052を指定しています。
値は今まで取得できていました。

ユーザー TNK の写真

プロトコルがほぼ同じだったかと思うので、たまたま動いていたのでしょう。
本来であれば、JMXインターフェースを登録して、そのインターフェース経由
でキーjmx[]を利用します。

わざわざホストを分ける現在の方法で、運用管理上問題が無いのであれば
それでもかまわないと思いますが、将来的にもその方法でできるかはわかり
ません。

ただ、先にご提示頂いたエラーログ内に、このJMX系のアクセスでもエラー
がでていましたのでご注意ください。

ユーザー ogata の写真

> Zabbixエージェント経由で取得するアイテムの値に関しては、値の
取得にデフォルトの3秒以上かかってしまうような場合は、Zabbix
エージェント側も変更する必要があります。
こちら、Zabbixエージェント経由で取得する、というのはアイテムのタイプが「Zabbixエージェント」となっているもの
という認識でよいのでしょうか。

ユーザー TNK の写真

アイテムのタイプが「Zabbixエージェント」や「Zabbixエージェント(アクティブ)」
となっているものだったと思います。

「Zabbixエージェント(アクティブ)」のものでも取得処理に時間がかかって
しまうような場合にはご注意ください。

ユーザー ogata の写真

Zabbixエージェント経由での取得の場合、zabbix_agentd.confのタイムアウト値を変えるだけでよいのでしょうか?
zabbix_server.confのタイムアウト値も変える必要があるのでしょうか。

すみません、zabbix_agentd.confとzabbix_server.confのタイムアウト値の違いがよくわからず・・・

ユーザー TNK の写真

最初に書いた通り、Zabbixサーバ側、Zabbixエージェント側両方の
Timeoutの値を変更する必要があります。

Zabbixサーバ側は、Zabbixエージェントに限らず、アイテムの値を
取得するために処理を開始してから値を受け取るまで待つ時間にな
ります。

Zabbixエージェント側は、Zabbixエージェントがアイテムの値の取
得処理を終了するまでに待つ時間となります。

Zabbixエージェントから値を取得する場合は、Zabbixサーバから
Zabbixエージェントに対して要求を出して応答を待ちますし、
Zabbixエージェント自体も例えばOSから値を取得しようと処理が
終わるのを待つので、両方に時間がかかる場合、両方のタイムアウ
ト時間を延長する必要があります。

先にZabbixサーバ側があきらめてタイムアウトしてしまうと、その
アイテムの状態は取得不可となります。

ユーザー ogata の写真

返事が遅くなり申し訳ありません。

エージェント再起動やタイムアウト値を修正してもfirst network errorが出続けていましたので
エージェント側のOSを再起動したところ解消されました。

ありがとうございます。