イベント「Version of zabbix_agent(d) was changed on XXX」について
現在AmazonEC2環境(DebianLinux)において、ZABBIX1.4.6を使ったサーバ監視をしています。
さきほど29日の午後3時頃、ZABBIXから下記内容のアラートメールを受信しました。
【Server XXX_Honban is unreachable: ON 】
直後に監視対象のシステムを確認したところ、
レスポンスが非常に重くなっていたものの、
システムダウンや再起動をした形跡はありませんでした。
ログにもそれらしい記録はなかったです。
また、数分後にはレスポンスも通常通り改善されました。
ブラウザでZABBIXにログインしてみると、次のような情報が確認できました。
・監視データ>最新データ>Cached memoryにて、2分間だけグラフが途切れていた
・監視データ>トリガーにて、
「Zabbix_server is not running on XXX_Honban」が”障害”になっていた
「Version of zabbix_agent(d) was changed on XXX_Honban」が”不明”になっていた
・約20分後、
「Version of zabbix_agent(d) was changed on XXX_Honban」が”正常”になっていた
海外のフォーラムを見ると、
zabbix_agentのバージョンアップによってCPUに負荷がかかり、
一時的に接続が出来ないような記述を見つけましたが、日本語の情報では見つけられませんでした。
http://www.zabbix.com/forum/showthread.php?t=16628
1)
zabbix_agentは自動バージョンアップされることがあるのでしょうか?(セキュリティ対策?)
2)
バージョンアップ時、上記フォーラムのようにCPUに負荷がかかる事例は
確認されていますでしょうか?
3)
zabbix_serverについても、自動バージョンアップがあるのでしょうか?
4)
バージョンアップの内容について、公式の発表等はあるのでしょうか?
よろしくお願いします。
TNK - 投稿数: 4769
ありません。
紹介されているリンク先の情報は、監視する対象に対して、Zabbix
サーバの性能が追いつかないような環境であったことによる問題で
あるように見受けられます。
今回の場合は、バージョンアップはされていないと思います。
実際にバージョンアップを手動で行えば、それなりに負荷はかかり
ますが、最近のサーバ機であれば、エージェントのバージョンアッ
プを行っても数秒で終了し、ほとんど負荷もかかりません。
もし、問題があるようであれば、Zabbixエージェント以外の処理で
すでに負荷が高くメモリも消費されてしまっているような状態にな
っているのではないでしょうか。
ありません。
各バージョンのリリースごとにリリースノートが公開されますので、
変更内容に関してはリリースノートをご確認下さい。
例えば、1.8.5なら以下のURLにあります。
http://www.zabbix.com/jp/rn1.8.5.php
ZABBIX-JPでも翻訳をしていますので、過去のリリースノートの翻
訳されたものをご覧になりたい場合には、以下のURLから参照して
頂ければと思います。
http://www.zabbix.jp/modules/news/
繰り返しになりますが、Zabbixのサーバやエージェントが勝手に自
動更新されることはありません。
経緯を拝見する限り、一時的に情報取得処理でタイムアウトが発生
し、値が取得できなかっただけだと思われます。
「不明」という状態は値取得処理のタイムアウトが発生して値が取
得できなかった時も発生します。
そして、再度接続して値を取得できるようになって「不明」から
「正常」に状態が変化したのでしょう。
バージョンアップしたかどうかは、最新データから各項目の履歴デ
ータを参照できますので、「監視データ」->「最新データ」で、対
象のホストを選択し、「Version of zabbix_agent(d) running」の
右側にある「ヒストリ」から過去の値と変わっているかを再度ご確
認ください。
Lloyd - 投稿数: 25
TNKさん、ありがとうございます。
自動的にバージョンアップすることはないのですね。
「Zabbix_server is not running on XXX_Honban」以外にも
「XXX App Log Error」や
「Low free disk space on XXX_Honban volume /tmp」といったトリガーも障害になっていたので、
一時的にタイムアウトが発生して情報を取得できなかったというのも納得です。
「Zabbix_server is not running on XXX_Honban」や
「Tomcat is not running on XXX_Honban」等、重大なトリガーも障害になっていたので、
大事に考えすぎてしまいました。
となると、
一時的にレスポンスが重くなった原因はZABBIXとは別のところにあると
考えるべきですね。
ありがとうございました。
障害発生時のCached memoryやFree disk space を確認しましたが、
特別大きな負荷はかかっていないようでした。
過去1週間分を確認してみましたが、
ずっと「1.4.6」から変わっていないことを確認しました。