Zabbixの異常終了について
先日、Zabbixサーバが異常終了されてしまいましたが、
終了した時のzabbix-serverのログには
3703:20110317:172254.579 Item [zabbix-svr:vm.memory.size[cached]] error: Get value from agent failed: ZBX_TCP_READ() failed [Connection reset by peer]
3703:20110317:172254.579 Zabbix Host [zabbix-svr]: first network error, wait for 15 seconds
3705:20110317:172254.580 Item [zabbix-svr:vfs.fs.size[/,free]] error: Get value from agent failed: ZBX_TCP_READ() failed [Connection reset by peer]
3705:20110317:172254.580 Zabbix Host [zabbix-svr]: another network error, wait for 15 seconds
…………
といったログが出力されていました。
17:23:05までに、Zabbixサービスが自動的に強制終了されました。
ZabbixサーバにインストールされたZabbix-agentのログには
2816:20110317:172252.547 One child process died (PID:2821,exitcode/signal:255). Exiting ...
2816:20110317:172254.557 Zabbix Agent stopped. Zabbix 1.8.4 (revision 16604).
といったログが出力されていました。
▲監視環境
・CentOS 5.5
・Zabbix 1.8.4
・mysql 5.0.77(CentOSにあるデータベース)
・監視台数:10台ぐらい
根本的な原因が分からないのでアドバイス等、頂けたら幸いです。
以上、よろしくお願いいたします。
kodai - 投稿数: 1341
このログはZabbixサーバからエージェントにネットワーク的に接続ができないときに出力されるものなので、特におかしなものではないと思います。
このログが出ているとき、zabbix-svrにインストールしたエージェントから情報が収集できなくなっていたのではないでしょうか。
これは何かしらの原因でZabbixエージェントが落ちたログです。
Zabbixサーバとエージェントは同時に落ちたのでしょうか?通常、エージェントが落ちることとサーバが落ちることは直接の関係はありません。
Zabbixサーバが落ちる直前のログには何か関連するエラーは出力されていないでしょうか。
Tanya - 投稿数: 26
落ちた日にエージェントログ(全部)は、以下のとおりです。
2821:20110317:172252.542 Got signal [signal:15(SIGTERM),sender_pid:6031,sender_uid:0,reason:0]. Exiting ...
2820:20110317:172252.542 Got signal [signal:15(SIGTERM),sender_pid:6031,sender_uid:0,reason:0]. Exiting ...
2819:20110317:172252.543 Got signal [signal:15(SIGTERM),sender_pid:6031,sender_uid:0,reason:0]. Exiting ...
2818:20110317:172252.544 Got signal [signal:15(SIGTERM),sender_pid:6031,sender_uid:0,reason:0]. Exiting ...
2817:20110317:172252.545 Got signal [signal:15(SIGTERM),sender_pid:6031,sender_uid:0,reason:0]. Exiting ...
2816:20110317:172252.547 One child process died (PID:2821,exitcode/signal:255). Exiting ...
2816:20110317:172254.557 Zabbix Agent stopped. Zabbix 1.8.4 (revision 16604).
私も落ちた原因は分からなかったですね。。。
ログにある時刻を見ると、Zabbixサーバとエージェントはほぼ同時に落ちました。
Zabbixサーバが落ちる直前後のログは、以下のとおりです。
◎直前
3711:20110317:171844.932 Sending list of active checks to [10.192.168.135] failed: host [AAA] not monitored
3745:20110317:171856.628 Item [zabbix-svr:vfs.fs.size[/var,used]] error: Type of received value [4554196254720.000000] is not suitable for value type [Numeric (float)]
3711:20110317:171944.942 Sending list of active checks to [10.192.168.135] failed: host [AAA] not monitored
3711:20110317:172044.949 Sending list of active checks to [10.192.168.135] failed: host [AAA] not monitored
3711:20110317:172144.958 Sending list of active checks to [10.192.168.135] failed: host [AAA] not monitored
3711:20110317:172244.964 Sending list of active checks to [10.192.168.135] failed: host [AAA] not monitored
上記のログは、ホストとアイテムの設定ミスのせいで生成されたログですが、今度の落ちた前にずっとあるので、異常終了を起こした原因ではないと思います。
◎直後
3747:20110317:172257.647 [Z3005] Query failed: [2006] MySQL server has gone away [select escalationid,actionid,triggerid,eventid,r_eventid,esc_step,status from escalations where status in (0,4,5,1) and nextcheck<=1300350177 and escalationid between 000000000000000 and 099999999999999]
3747:20110317:172257.648 [Z3001] Connection to database 'zabbix' failed: [2002] Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (2)
3747:20110317:172257.648 Database is down. Reconnecting in 10 seconds
3730:20110317:172300.651 [Z3005] Query failed: [2006] MySQL server has gone away [select distinct t.triggerid,t.type,t.value,t.error,t.expression from triggers t,functions f,items i,hosts h where t.status=0 and t.triggerid=f.triggerid and f.function in ('nodata','date','dayofweek','time','now') and f.itemid=i.itemid and i.status=0 and i.hostid=h.hostid and h.status=0 and (h.maintenance_status=0 or h.maintenance_type=0) and h.hostid between 000000000000000 and 099999999999999]
3730:20110317:172300.651 [Z3001] Connection to database 'zabbix' failed: [2002] Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (2)
3730:20110317:172300.651 Database is down. Reconnecting in 10 seconds
3732:20110317:172301.771 [Z3005] Query failed: [2006] MySQL server has gone away [select t.httptestid,t.name,t.applicationid,t.nextcheck,t.status,t.macros,t.agent,t.authentication,t.http_user,t.http_password from httptest t,applications a,hosts h where t.applicationid=a.applicationid and a.hostid=h.hostid and t.nextcheck<=1300350181 and mod(t.httptestid,1)=0 and t.status=0 and h.status=0 and (h.maintenance_status=0 or h.maintenance_type=0) and t.httptestid between 000000000000000 and 099999999999999]
3732:20110317:172301.771 [Z3001] Connection to database 'zabbix' failed: [2002] Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (2)
3732:20110317:172301.771 Database is down. Reconnecting in 10 seconds
3743:20110317:172302.258 [Z3005] Query failed: [2006] MySQL server has gone away [begin;]
3743:20110317:172302.259 [Z3001] Connection to database 'zabbix' failed: [2002] Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (2)
3743:20110317:172302.259 Database is down. Reconnecting in 10 seconds
3703:20110317:172305.148 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3704:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3705:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3706:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3707:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3708:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3711:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3721:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3730:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3735:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3737:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3743:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3745:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3747:20110317:172305.149 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3749:20110317:172305.150 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3698:20110317:172305.152 One child process died (PID:3703,exitcode/signal:19). Exiting ...
3701:20110317:172305.153 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3713:20110317:172305.153 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3715:20110317:172305.153 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3717:20110317:172305.153 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3719:20110317:172305.153 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3726:20110317:172305.153 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3728:20110317:172305.153 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3734:20110317:172305.153 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3732:20110317:172305.153 Got signal [signal:15(SIGTERM),sender_pid:6508,sender_uid:0,reason:0]. Exiting ...
3698:20110317:172307.155 [Z3001] Connection to database 'zabbix' failed: [2002] Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (2)
以上、よろしくお願いいたします。
kodai - 投稿数: 1341
ZabbixサーバからMySQLへのクエリが失敗しているようなので、何かしらの原因でMySQLサーバへの接続が行えなくなり、Zabbixサーバが落ちた可能性が高いです。
落ちたときにMySQLサーバ自体が停止していたとか、MySQLに負荷がかかっていたということはないでしょうか。
Tanya - 投稿数: 26
ご回答ありがとうございます。
今度の異常終了の原因を分かりました。
その日に、停電のため、
サーバを再起動しました。
サーバ自体を起動してから、
Httpdとmysqlサービスが自動起動されましたが、
Zabbix-serverサービスが自動起動されていないという原因でした。
対策としては、Zabbix-serverを自動起動リストに追加しました。
ご協力ありがとうございます。
以上。