CentOS5.4 x86_64のみで突如異常発生

お世話になってます、広瀬です

同一のサービスを行っているWebサーバが3台ありますが、その内2台でエージェント経由での監視が
正常に出来なくなる事象が発生しました

■3台中異常が起きているサーバの構成
 ▼構成
 ・CentOS5.4 x86_64
 ・ZABBXエージェント 1.8.11
 ・アクティブ監視のすべて(※TIME_WAIT回避の為、CPU/メモリ/HDDなどのリソース監視はすべてアクティブ)
 ・2台共に8GB
 ・ip_conntrack数を標準より引き上げている(3台とも同一)

 ▼具体的な異常内容
 ・net.tcp.serviceなどで80番ポート監視でUP/DOWN繰り返してしまう
 ・CPU/メモリ/HDD等のリソースで、正常な値が返ってこない(例:8GBしかメモリ搭載していないのに、Total値が16GB帰ってくる)
 ・異常が起きているサーバ2台共に、ほぼ同時に発生してしまう(若干の通知ラグはアリ)

 ▼補足
 ・シンプル、SNMP、WEB、パッシブ監視系はすべて正常でした。
 ・細かく確認はしていませんが、ログ監視のみどうやら正常っぽい動きをしている模様
 ・実際に外から見て、WEBサーバとしての動きは正常(WEB監視や、curlコマンドでも200応答を必ず返す)

 ※ただし、アクティブ監視しているものは、すべてパッシブタイプ(ログ以外)に変更すると発生しない
 ※また発生する時間帯は集中的に起き、起きない時間帯もある(その間の取得値は正常)

■3台中正常なサーバ
 ▼構成
 ・CentOS5.7 x86_64
 ・ZABBIXエージェント 1.8.11
 ・このサーバのみ、搭載メモリが16GB
 ・ip_conntrack数を標準より引き上げている(3台とも同一)

 ▼状態
 ・監視項目はすべて同一ですが、一切エラー発生せず

異常が発生する点と、差異は上記の通りとなります。ぱっと見て、おそらくOS側の可能性が高いと思われるのですが、
システムのログ、ZABBIXのログ、Apacheのログをすべて見る限りではエラーの痕跡等が一切なく、OSとして、また
Apacheは正常に動作していると言って過言では無い状態です。

■不明点
 ・この構成にしてから2ヶ月以上は正常な監視を行えており、突然発生した
 ・異常が発生した直近まで大きな変更はない(強いていうならば、ZABBIXとNTPの向き先変更程度、それも1ヶ月半前)
 ・異常きたしているサーバは、同時にエラーが発生する
 ・DB自体にエラーは無い模様。ただし、ZABBIX_SERVER側のログはDEBUGレベル3なので、直接DBの一般ログか
  らの参照を行った上での結論です

上記の事から推測してZABBIXエージェント側に問題がありそうとも言えますし、OSバージョンが1台だけ違う事からも、
OS側の問題ともとらえる事ができてしまう状態です。
少々ZABBIXの話題から離れてしまう部分もあるのですが、エージェント側の問題が濃いと思われるか、OS側であるのか
検討を付ける材料(主要ログに何も無い)に乏しいため、何かヒント的なものがあればご教授頂ければと思います。

以上、長くなりましたがよろしくお願いいたします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

RPMなどを利用して同じバイナリのエージェントを利用されている
のであれば、wakabaさんも可能性として挙げられている通り、OSの
バージョンによる問題である可能性が考えられると思います。

ご参考までに、5.6で数百のカーネルバグ修正と機能拡張が行われ
ているようです。
http://docs.redhat.com/docs/en-US/Red_Hat_Enterprise_Linux/5/html/5.6_Te...

5.4なら対処済みのkernelを利用されているはずですが、今年の7/1
に発生したうるう秒での障害のようにkernel内のタイマー処理に問
題が残っていると、カウンタから差分を取得して時間差で割って単
位時間あたりの値を計算するような処理で正常な値を計算できない
ようなことが発生してしまっているのかもしれません。

発生したタイミングはいつごろであったかおわかりになりますか?

広瀬です

TNKさん、ご返答ありがとうございます。

情報不足でした。RPM版バイナリ(ZABBIX-JP提供のもの)を利用しています。
また、先に書いておくべき事でしたが、本件事由が不明であった為、サーバ再起動自体は既に行
った上で、尚現象が続いている状況です

> 今年の7/1に発生したうるう秒

これに関しては未対応カーネルでは異常を起こす可能性がある事を事前に察知していましたので、
カーネルバージョン自体の確認や問題点が無いかについては確認をしています。

> 発生したタイミングはいつごろであったかおわかりになりますか?

先週の金曜日(8/10)の午前1時半過ぎから突如として発生しました(2台同時)。

但し、その前日の木曜日の16時半過ぎ頃に、1度だけApacheプロセス異常が発生しており、この
時は当該時間帯に、若干のCPU負荷があった(ログローテーションも実際にあった)ので、そちらが
起因だろうとおもっておりました。

※この時も、異常検知は2台ともにほぼ同時発生でした

ユーザー kodai の写真

1点、本来メモリが8GBであるにも関わらず、16GBの監視データが送信されてきている、という点が気になりました。全くおかしな値であれば何か異常値を取得している可能性もあると思うのですが、値が奇麗すぎる気もします。他の監視項目の値はどうなっているでしょうか?

アクティブチェックの場合、仕様上複数のエージェントからデータを受信することも可能です。同じ環境の中に、例えばテストマシンとしてzabbix_agentd.confのServerとHostnameの設定値が本番環境と同じ値になっているマシンがいたりしないでしょうか?

また、異常なデータを受信しているアイテムのヒストリでは、アイテムで設定した間隔でデータが受信されているでしょうか?設定されている間隔(正常値)に加えて、想定していないデータを受信しているということはないでしょうか?

広瀬です

ご返答内容読ませて頂いた瞬間に、「あ゛・・・」って声を上げそうになってしました・・・

鋭いご指摘、大変助かりました。確かに異常が起きているサーバですが、OSバージョンが
古い為、リプレース用に別にIPだけ違うサーバを既に構築しており、エージェント等の設定
が全く同一なエージェントが既に稼働していました。

当該新サーバ側のプロセス停止してみましたところ、解消致しました。
非常にお恥ずかしい限りです。ありがとうございました。