「first network error, wait for 15 seconds」と「Cannot connect」エラーについて

いつもこちらのサイトで勉強させて頂いています。

【環境】
・ZABBIX1.4.6
・AmazonEC2環境(DebianLinux)
・5年ほど前から運用中

ここ1,2ヶ月でzabbix_server.logのサイズが急に増えており、中身をみたところ、以下のError情報が繰り返し表示されていました。
XXXと隠しているところは全て監視対象で、同一URLです。

-----
11798:20150705:131747 Get value from agent failed. Error: Cannot connect to [184.72.XXX.XXX:10050] [Interrupted system call]
11798:20150705:131747 Host [Hoge_Honban]: first network error, wait for 15 seconds
11798:20150705:131747 Parameter [system.cpu.load[,avg15]] will be checked after 80 seconds on host [Hoge_Honban]
11799:20150705:133247 Timeout while answering request
11799:20150705:133247 Get value from agent failed. Error: Cannot connect to [184.72.XXX.XXX:10050] [Interrupted system call]
11799:20150705:133247 Host [Hoge_Honban]: first network error, wait for 15 seconds
11799:20150705:133247 Parameter [system.swap.size[,pfree]] will be checked after 120 seconds on host [Hoge_Honban]
11798:20150705:133248 Timeout while answering request
11798:20150705:133248 Get value from agent failed. Error: Cannot connect to [184.72.XXX.XXX:10050] [Interrupted system call]
11798:20150705:133248 Host [Hoge_Honban]: first network error, wait for 15 seconds
11798:20150705:133248 Parameter [system.swap.size[,free]] will be checked after 120 seconds on host [Hoge_Honban]
11815:20150705:141541 Executing housekeeper
11815:20150705:141547 Deleted 11936 records from history and trends
11815:20150705:151647 Executing housekeeper
11815:20150705:151653 Deleted 11966 records from history and trends
11815:20150705:161753 Executing housekeeper
-----

以下のトピックを拝見したのですが、残念ながら解決しませんでした。
解決法やアドバイスがありましたら、教えて頂けますでしょうか。よろしくお願いします。

-----
▼zabbix_server.logに出力されるCONNECTエラー
http://www.zabbix.jp/node/137
 [設定] -> [ディスカバリ] -> [Local network]は、無効になっていました。

▼first network error, wait for 15 secondsエラーについて
http://www.zabbix.jp/node/831
 zabbix_server.confを以下のとおり変更し、zabbix-serverを再起動しましたが、解決しませんでした。
>># Specifies how long we wait for agent response (in sec)
>># Must be between 1 and 30
>>Timeout=20

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

「Cannot connect」であるならば、エラーが発生していたそれぞれ
の監視対象から値を取得しようとしてZabbixエージェントに接続し
ようとして接続できなかったか、「Interrupted system call」で
すので、タイムアウトが発生したのでしょう。

Zabbixサーバからその監視対象に対して、接続できる状態であるの
かを確認してください。

IPアドレスは合っていますか?
Firewallなどで接続を制限していませんか?
Zabbixサーバ上からその監視対象に対してzabbix_getコマンドを利
用して値を取得することができますか?
応答が返ってくるまでどの程度の時間がかかりますか?

ユーザー Lloyd の写真

TNKさま、迅速な回答ありがとうございます。

puttyでログインしてzabbix_getを入力したところ、体感1秒以内に1.4.6と表示されました。
-----
# zabbix_get -s 184.72.XXX.XXX -k agent.version
1.4.6
-----

また、ブラウザでZABBIXにログインし、設定>ホストを見たところ、184.72.XXX.XXXのポート10050は「有効」「監視中」となっていました。
よろしくお願いします。

ユーザー TNK の写真

普段は短時間で値を取得できているのであれば、そのエラーが発生
した時間帯に監視対象のサーバの負荷が高くなっていたりしません
でしたか?

Zabbixサーバ側で値が取得できている範囲で、負荷状況を確認して
みてください。
可能であれば、そのエラーの発生した時間帯に監視対象のサーバ上
で何か負荷が高くなるような処理を実行していなかったか、そのサ
ーバ上のログなどでも確認してみてください。

負荷が高くて応答できていないのであれば、Timeoutの時間を伸ば
すことである程度までは改善できるかもしれません。
とはいえ、Zabbixサーバ側、Zabbixエージェント側ともに調整した
としても最大30秒までです。

それを超えてしまうような場合は、アイテムのタイプとして、

 Zabbixエージェント(アクティブ)

を選択して、各アイテムの値の取得方法として、Zabbixサーバ側か
ら値を取得しにいくのではなく、監視対象のサーバからZabbixサー
バに通知する形で監視するのも1つの対策かもしれません。

最後に、利用されているバージョンのZabbixのバージョンが大変古
いので、そのバージョンでのノウハウはもう集まらないかもしれま
せん。
不具合や脆弱性の問題も改善されませんので、どこかのタイミング
でバージョンアップされることを強くお勧めします。

ユーザー Lloyd の写真

TNKさま、迅速な回答ありがとうございます。

>監視対象のサーバの負荷が高くなっていたりしませんでしたか?
ブラウザでZABBIXにログインし、Error出力前後の負荷状況をチェックしましたが、特別負荷がかかっているようではありませんでした。

>Zabbixサーバ側、Zabbixエージェント側ともに調整したとしても最大30秒までです。
エージェント側のTimeoutは初期値(3秒)のままでしたので、こちらも30秒まで伸ばしてみます。

>どこかのタイミングでバージョンアップされることを強くお勧めします。
はい、機会を作ってバージョンアップしたいと思います。