分散監視(プロキシ)でIPMI監視した場合にプロキシが落ちる
はじめまして。
zabbix1.8.2をプロキシによる分散監視で利用しております。
バグかどうか明確ではありませんが、質問させてください。
■ 構成
・プロキシによる分散監視
・プロキシは拠点内でDRBD+Hearbeat+FIPで冗長構成
・セントラルノードはデータセンター間でDRBD+Heartbeat+DDNSで冗長構成
・MySQLのinnodb使用
■ ハード
・CPU Intel(R) Xeon(R) CPU E5520 @ 2.27GHz
・MEM 24G
■ proxy設定
LogFile=/var/log/zabbix/zabbix_proxy.log
PidFile=/var/run/zabbix/zabbix_proxy.pid
Server=${親サーバー}
Hostname=${プロキシホスト名}
DBName=zabbix
DBUser=hoge
DBPassword=fuga
DBSocket=/var/lib/mysql/mysql.sock
Timeout=30
AlertScriptsPath=/etc/zabbix/alertscripts
ExternalScripts=/etc/zabbix/externalscripts
ConfigFrequency=600
DataSenderFrequeccy=10
#DebugLevel=4
CacheSize=512M
HistoryCacheSize=512M
TrendCacheSize=256M
HistoryTextCacheSize=512M
#DisableHousekeeping=1
StartIPMIPollers=3
上記構成でIPMIの監視を行っていると、急にIPMIの値がとれなくなったり、proxyのプロセスがコアを吐いて落ちたりします。(コアのログは保存できていないので、その時のproxyログを貼り付けます。)
-----
9538:20101201:111239.494 IPMI Host [${監視ホスト名}]: first network error, wait for 15 seconds
9498:20101201:111255.609 One child process died (PID:9526). Exiting ...
9498:20101201:111255.609 zbx_on_exit()
9498:20101201:111257.613 Syncing history data...
9498:20101201:111257.615 Syncing history data...done.
9498:20101201:111257.615 Syncing trends data...
9498:20101201:111257.616 Syncing trends data...done.
9498:20101201:111257.616 Zabbix Proxy stopped. Zabbix 1.8.2 (revision 11211).
-----
再起動後は、IPMIの値も取れ始めます。
結構頻発(1日2回あるときもある)しているので困ってます。
設定等問題なく、原因不明です。
感覚としては、IPMIの設定をセントラルノードで色々弄ってると発生しやすい印象があります。
何かありましたらご教授下さい。
また、他に必要な情報等ありましたら追記します。
以上、よろしくお願いします。
TNK - 投稿数: 4740
現在リリースされているバージョンでは、IPMIを利用している場合に不具合が発生しているようです。
これも、次のバージョン(1.8.4)で修正されるようです。
https://support.zabbix.com/browse/ZBX-633
matsumotor - 投稿数: 7
ありがとうございます。
やはりですか。
とりあえずはマクロでインターフェイス毎のIPを定義して、グローバル、プライベート、IPMIのping監視をおこなおうと思います。
親切にありがとうございました。
kodai - 投稿数: 1341
IPMIまわりはまだ不安定な印象がありますね。特にIPMI監視が原因でZabbixサーバが落ちるという問題はこちらの環境でも再現してます。
IPMIが不安定になるきっかけとしては、対象のIPアドレスを変更したタイミングではかなりの高確率でZabbixサーバ落ちます。他にもアイテムの設定をいじったりすると不安定になるかもしれません。
原因はIPMIライブラリとの連携まわりで発生しているようで、1.8.4の修正に期待したいところです。
matsumotor - 投稿数: 7
お世話になります。
きっかけに関しては全く同じ印象をもっており、IPMIのIPアドレス追加して、そのホストに対してIPMI用監視テンプレートをリンクさせた場合等に発生したいたので、全く同じ事象のようです。
うろ覚えですが、mmapとかそのあたりのkernelログをはいていた記憶があるので、segfault系の問題ではと推測しているところです。