Zabbix1.4.5にてZabbix_Serverがストップ

初めて投稿させていただきます。
宜しくお願いいたします。

早速ですが、以下の問題が発生し困っております。
死活監視のみの場合は問題無かったのですが、Agentにより監視を開始してから頻繁(1、2日程度で)にZabbix_Serverがストップ
する様になってしまいました。

以下のメッセージがサーバ側ログファイル出力されています。
クライアント側のログには特にエラーらしきログは出力されておりません。
-----------------------------------------------------
Starting zabbix_server. ZABBIX 1.4.5.
**** Enabled features ****
SNMP monitoring: YES
WEB monitoring: YES
Jabber notifications: YES
IPv6 support: NO
**************************
server #6 started [Trapper]
server #7 started [Trapper]
server #8 started [Trapper]
server #1 started [Poller. SNMP:ON]
server #2 started [Poller. SNMP:ON]
server #4 started [Poller. SNMP:ON]
server #5 started [Poller. SNMP:ON]
server #9 started [Trapper]
server #10 started [Trapper]
server #11 started [ICMP pinger]
server #12 started [Alerter]
server #13 started [Housekeeper]
Executing housekeeper
server #14 started [Timer]
server #3 started [Poller. SNMP:ON]
server #16 started [Node watcher. Node ID:0]
server #17 started [HTTP Poller]
server #18 started [HTTP Poller]
server #19 started [HTTP Poller]
server #20 started [HTTP Poller]
server #21 started [HTTP Poller]
server #0 started [Watchdog]
server #15 started [Poller for unreachable hosts. SNMP:ON]
server #22 started [Discoverer. SNMP:ON]
Deleted 4048 records from history and trends
Executing housekeeper
      ・
      ・ 暫く動作
      ・
Deleted 6087 records from history and trends
Executing housekeeper
One child process died. Exiting ...
ZABBIX Server stopped
-----------------------------------------------------

何か情報をお持ちの方おられますでしょうか。

環境は以下の通りです。
 サーバ
  OS : CentOS 5.2
  MySQL : 5.0
  zabbix: 1.4.5(RPMよりインストール)
 クライアント
  OS : CentOS 4.2及びWindows2003 R2
  zabbix-agent : 1.4.5

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー angel の写真

とおりすがりの天使ですが・・・

本家のフォーラムで「1.4.5 process dies」というスレッドがありました。
この投稿者のケースでいえば、ネットワークが遅い時とか高負荷状態のときに、
trapperというプロセスが5分間のタイムアウトでハングアップしていたみたいです。

※以下、抜粋です。

At some point your network becomes very slow or unreliable causing large number of timeouts,
so all of your five trappers hang in a 5 min (currently hard coded) timeout state.

Case closed.

状況が合致するのであればzabbix1.4.5の問題ではなく、それをとりまくネット
ワーク環境に問題があるかもしれませんね。

以上、ご参考までに。 :-?

ユーザー hiraoka の写真

angelさん

はじめまして。

情報有難うございます。
一度ネットワーク周りを調査してみます。 :-)

ユーザー kodai の写真

こんにちは。

これまでに報告されたこととしては、利用していないトリガーが多数あると、メモリリークが起こってZABBIXサーバが落ちることがあるようです。

もし不要なトリガーが多数あるようでしたら、無効にされてみてはどうでしょうか。

ZABBIXサーバが動作しているサーバ自体を監視されている場合は、落ちるときのメモリの状態はどのようになっているでしょうか?

ユーザー kodai の写真

追記です。

zabbix_server.confでDebugLevel=4を設定して、デバッグログを出力されてみてはどうでしょうか。

ログの量は大きくなってしまいますが、ZABBIXサーバが落ちる直前の詳細なログから原因を探れると思います。

ユーザー hiraoka の写真

kodaiさん

はじめまして。

以下が停止直前のログ情報です。
何か停止の原因となる情報が得られますでしょうか。。。 :-(
============================================================
Before read
End get_value_agent(result:0.008474)
End get_value()
Query [begin;]
In process_new_value(system.cpu.util[,system,avg1])
In add_history(key:system.cpu.util[,system,avg1],value_type:0,type:2)
In add_history(itemid:19720,DOUBLE:0.008474)
In add_history()
Query [insert into history (clock,itemid,value) values (1235921440,19720,0.008474)]
In add_trend()
Query [select num,value_min,value_avg,value_max from trends where itemid=19720 and clock=1235919600]
Query [update trends set num=185, value_min=0.004200, value_avg=0.012876, value_max=0.025900 where itemid=19720 and clock=1235919600]
End of add_history
In update_item()
In calculate_item_nextcheck (19720,10,,1235921440)
End calculate_item_nextcheck (result:1235921450)
Query [update items set nextcheck=1235921450,prevvalue=lastvalue,lastvalue='0.008474',lastclock=1235921440 where itemid=19720]
End update_item()
In update_functions(19720)
Query [select distinct function,parameter,itemid,lastvalue from functions where itemid=19720]
End update_functions()
In update_triggers [itemid:19720]
Query [select distinct t.triggerid,t.expression,t.description,t.url,t.comments,t.status,t.value,t.priority from triggers t,functions f
,items i where i.status<>3 and i.itemid=f.itemid and t.status=0 and f.triggerid=t.triggerid and f.itemid=19720]
End update_triggers [19720]
Query [commit;]
End get_values()
Spent 0 seconds while updating values
Query [select count(*),min(nextcheck) from items i,hosts h where h.status=0 and h.disable_until<1235921440 and h.errors_from=0 and h.h
ostid=i.hostid and i.status in (0,3) and i.type not in (2,7,9) and mod(i.itemid,5)=0 and i.key_ not in ('status','icmpping','icmppingsec','zabbix[log]') and
h.hostid>=100000000000000*0 and h.hostid<=(100000000000000*0+99999999999999) ]
Nextcheck:1235921445 Time:1235921440
Sleeping for 5 seconds
One child process died. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
Got signal. Exiting ...
ZABBIX Server stopped
============================================================

ユーザー kodai の写真

ログには関係しそうなエラーは出ていないようですね...。

過去のリリースノートを見返してみたところ、1.4.6のリリースノートでは以下のバグが修正されているようです。

* [ZBX-356] *log()ではないアイテムにログタイプを指定した場合にサーバがクラッシュする可能性がある問題を修正

今頂いている情報だけだと調査できることも限られてしまいますので、他に何か解決の糸口になりそうなものはないでしょうか?例えば、落ちる時間や間隔に規則性があったり、特定のアイテムを止めた場合は落ちなくなったなど、情報をいただけると回答しやすくなるのですが。

ユーザー KAZ の写真

hiraokaさん

ostid=i.hostid and i.status in (0,3) and i.type not in (2,7,9) and mod(i.itemid,5)=0 and i.key_ not in ('status','icmpping','icmppingsec','zabbix[log]') and

監視を行っているitemにkeyが「log[ファイル名]」、typeが「zabbix agent」となっている物は有りませんか?
log監視のtypeですが「zabbix agent(active)」じゃないと、再起動のタイミングにプロセスがダウンする事があります。