first network error, wait for 15 secondsエラーについて(2)

先日、このエラーを投稿し、その時に解決しましたと思っていましたのに、
(http://www.zabbix.jp/modules/newbb/viewtopic.php?topic_id=840&forum=2)
最近、同じのエラーを再び起こされました。

サーバは落ちておらず、監視アイテムの値も取得できているのですが、
zabbix_server.logに下記のようなエラーを延々と吐き続けるというものです。

発生頻度:大体2、3日ごとに一回

26490:20110525:115240.140 Item [server1:vfs.fs.size[e: ,pused]] error: Get value from agent failed: ZBX_TCP_READ() failed [Interrupted system call]
26490:20110525:115240.141 [Z3005] Query failed: [2006] MySQL server has gone away [begin;]
26490:20110525:115240.142 Zabbix Host [server1]: first network error, wait for 15 seconds

毎回、上記の3行のログにて、Itemの内容(1行目)が異なる以外、
同じの内容は5回繰り返すると、正常になりました。

このエラーを解決するために、
Zabbixサーバ側とクライアント側のタイムアウト時間を30秒にしましたが、
このエラーを消すのはまだです。

※タイムアウト時間を30秒にした前に、このエラーの発生頻度は
大体毎日5回ぐらいでした、

他の相関のパラメーターがありませんでしょうか。

また、Zabbix環境としては、以下のことは関係がありませんでしょうか。
・Zabbixサーバ:Version 1.8.4
・Zabbixエージェント:Version 1.6.9

以上、よろしくお願いいたします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

サーバの負荷は高くなっていませんか?
負荷が高くないのであれば、ハードディスクのI/Oなどで処理が遅
くなっていませんか?

監視項目の数とその間隔が短い場合は、Zabbixサーバやデータベー
スへの負荷が大きくなりますので、規模によっては、それなりに性
能の高いサーバ機でなければ処理が追いつかず、今回のようなエラ
ーメッセージがでるような場合が考えられます。

その場合は、監視項目を減らすか監視の間隔を伸して単位時間当た
りの処理数を減らすなどの対応が必要になると思います。

Zabbixサーバやデータベースの状態をご確認下さい。

また、Zabbix環境としては、以下のことは関係がありませんでしょうか。
・Zabbixサーバ:Version 1.8.4
・Zabbixエージェント:Version 1.6.9

全く関係ないと思います。

ユーザー Tanya の写真

ご返信ありがとうございました。

Zabbixサーバで作成したパフォーマンスグラフをみると、サーバの負荷が高くないと思います。

今日の10:00〜11:00のパフォーマンス値は以下のとおりですが、何か問題があったら、教えていただきます。
※以下の数値は最新値、最小、平均、最大の順で記述されています。
1)CPU Load:
Processor Load5 2.15 0 0.58 2.51
Processor Load 2.14 0 0.75 4.09
Processor Load10 1.64 0 0.32 1.64
2)CPU Utilization:
CPU idle time 81.51 71.28 93.88 99.47
CPU System time 0.65 0.12 0.35 2.69
CPU user time 17.39 0.17 5.47 23.46
3)メモリ使用量:
Shared memory 0 0 0 0
Buffers memory 238.52MB 238.52MB 238.52MB 238.52MB
Cached memory 508.9MB 507.88MB 508.13MB 508.9MB
Free memory 116.64MB 115.43MB 111.4MB 156.46MB
4)Free Swap space:
Free Swap space 1.94GB 1.94GB 1.94GB 1.94GB
5)Disk I/O:
Disk Read Operations 436.9KB 436.66KB 436.73GB 436.9KB
Disk Write Operations 60.69MB 60.64MB 60.66MB 60.69MB

パフォーマンスチューニングによって、Zabbix_Server.confにあるパラメーターを確認しましたが、以下のとおりです。
StartPollers=5
StartPingers=1
StartDBSyncers=4 (Default)

※参考URL:http://www.zabbix.jp/files/seminar/20100730_ZABBIX-JP_StudyMeeting_2.pdf

念のため、Zabbixに関する環境情報は以下のとおりです。
・CPU:Intel(R) Pentium(R) 4 CPU 2.20GHz
・Memory:1GB
・OS:CentOS 5.5
・Zabbix:1.8.4
・監視ホスト数:23
・監視アイテム:189
・1秒あたりの監視項目数:1.89

また、このエラーは、監視対象ホストのResponse速度と関係がありませんでしょうか。

何かアドバイスがあると助かります。

ユーザー KAZ の写真

Tanyaさん

返信遅くなりました。
<code>
26490:20110525:115240.141 [Z3005] Query failed: [2006] MySQL server has gone away [begin;]
</code>
上記は、MySQLとの接続がタイムアウトして接続がクローズしています。

[url=http://dev.mysql.com/doc/refman/4.1/ja/gone-away.html]MySQL :: MySQL 4.1 リファレンスマニュアル :: A.2.2 MySQL server has gone away エラー[/url]

my.cnfの設定でwait_timeoutが小さな値になっていないでしょうか?