WindowsServerへのログの監視が途切れてしまう

お世話になります。

先日zabbixへとWindowsサーバーを追加したのですが、どうも継続的に監視ができていないようです。
詳細は以下に記述させていただきます。

【環境】
ZABBIXバージョン:1.8.10
WindowsOS:WindowsServer2008 R2 Standard x64

【発生現象】
zabbixのグラフのCPU使用率を確認したところ、グラフが途切れている場所が多々あることを確認。
⇒情報を採取できているときとそうでない時がある模様。
 他のサーバーでは問題なく情報を採取できている。

zabbixに登録されているホストのステータスを一度無効にした⇒変わらず。
Windowsサーバーのエージェントの再起動を実施⇒変わらず。

上記現象が発生してしまう原因について心当たりがありましたら、
どうかご教授いただけないでしょうか。

以上、よろしくお願いいたします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー heya の写真

まず、バージョンがずいぶん古いですね。できれば新しくした方がいいですよ。原因が Zabbix のバグによるものの場合、最新版だと修正されている可能性があります。すぐにバージョンアップできないとしても、セキュリティ的にも結構まずい気がするので、バージョンアップする方向で上(お客?)に掛けあってみた方がいいと思います。

あとは一般論になりますが、この辺りはどうでしょうか。
・Zabbix サーバー、エージェント、それぞれのログには何か出ていないか?
・サーバー~エージェント間の通信が不安定になっていないか?
・サーバーやエージェントの負荷が高過ぎるということはないか?

ユーザー zinten の写真

kakiageさん

対象の環境がWin2008R2ということで497日問題というのがあります。
WindowsServerを497日以上稼働しているとZabbixに限らず通信が途切れます。
確認してみてください。
http://www.zabbix.jp/node/2867

ユーザー kakiage の写真

heya様

ご回答ありがとうございます。
バージョンアップも検討してはいるのですが、今すぐには諸事情で難しい状況です。

・Zabbix サーバー、エージェント、それぞれのログには何か出ていないか?
⇒特に、それらしい記述は見当たりませんでした。
・サーバー~エージェント間の通信が不安定になっていないか?
⇒仮想OSなのですが、同じホスト上の他の仮想OSでは同じ現象は
 発生していないので、通信は不安定にはなっていないと思います。
・サーバーやエージェントの負荷が高過ぎるということはないか?
⇒zabbixのイベントを確認すると、いくつか気になる記述がありました。
 ・【警告】<××××>のZabbixAgentが停止中(×はサーバ名)
 ・【警告】<××××>のCPU使用率が80%以上

これは、CPU負荷が高くなった結果、エージェントが停止してしまったという
ことでしょうか…。

zinten様

ご回答ありがとうございます。
こちらのサーバーなのですが先日構築したばかりで、また修正プログラムを
適用しているため、497日問題は発生しないと思われます。

もし何か、解決につながるような情報をお持ちでしたら、
ご連絡いただけましたら幸いです。

ユーザー heya の写真

ネットワーク周りかと思ったんですが、どうも違うみたいですね。

問題のホストで、CPU使用率以外のアイテムも同じように値が取れたり取れなかったりするのでしょうか?

あと、関係ないとは思いますが、グラフの描画の問題かどうかの切り分けとして・・・
最新データからグラフが見られて、そのグラフの画面の右上でグラフと値を切り替えられたと思います。
値にしたときには取得した時間も一緒に表示されますが、そこでもやはり本来値を取得すべき時間に値が存在しないのでしょうか?
↑分かりにくかったらすみません。

>・【警告】<××××>のZabbixAgentが停止中(×はサーバ名)
>・【警告】<××××>のCPU使用率が80%以上
これが出た時間と値が取れない時間は一致するのでしょうか?
#あと、停止した後どうやって再開したのかも気になります。

ユーザー kakiage の写真

heya様

何度も回答してくださり、ありがとうございます。
いただいた情報に回答させていただきます。

>問題のホストで、CPU使用率以外のアイテムも同じように値が取れたり取れなかったりするのでしょうか?

設定ではとれるようにしているのですが、取得できていません。
同じテンプレートを設定しているほかのサーバーでは問題なく取得できています。

>あと、関係ないとは思いますが、グラフの描画の問題かどうかの切り分けとして・・・
>最新データからグラフが見られて、そのグラフの画面の右上でグラフと値を切り替えられたと思います。
>値にしたときには取得した時間も一緒に表示されますが、そこでもやはり本来値を取得すべき時間に値が存在しないの>でしょうか?

こちらですが、本来値を取得すべき時間に値はありませんでした。

>>・【警告】<××××>のZabbixAgentが停止中(×はサーバ名)
>>・【警告】<××××>のCPU使用率が80%以上
>これが出た時間と値が取れない時間は一致するのでしょうか?
>#あと、停止した後どうやって再開したのかも気になります。

こちらですが、かなり奇妙な状態になっているようです。
確認したところ、以下にようになっていました。

[グラフが書かれている時間と情報]
11:20~11:30にグラフが書かれている
CPU使用率は20%以下(最高CPU使用率も同様)

[イベントに出力されていた情報]
2016.5月.20 11:25:20 【警告】HPDC01のCPU使用率が80%以上
2016.5月.20 11:25:20 【注意】HPDC01のCPU使用率が90%以上

上記のように、グラフとイベントの内容がまったく一致していない現象が発生している事ががわかりました。

上記現象などもあり、zabbixのアップデートを検討しております。
ですが、いくつか懸念事項がございます。

・アップデートの際、現バージョンのテンプレート等の設定などは簡単に引き継ぐことができるのでしょうか。

恐れ入りますが、ご教授いただけましたら幸いです。

ユーザー heya の写真

>・【警告】<××××>のZabbixAgentが停止中
よく見たら、これが出たのは Zabbix のイベント画面なんですね。
これに対応するトリガーはどんなものでしょうか?agent.ping と nodata() の組み合わせですかね?
もしそうなら、(本当にエージェントが停止していたのでなければ)しばらくエージェントと通信できてなかったというのが原因の気がします。

>・【警告】<××××>のCPU使用率が80%以上
一応確認ですが、トリガーで使用率と idle を逆に指定していたとか、無いですよね?

>・アップデートの際、現バージョンのテンプレート等の設定などは簡単に引き継ぐことができるのでしょうか。
基本的には、データベースを変換することになります。
まずは 1.8→2.0 にして、その後 2.2 か 3.0 に上げます(直接 1.8→3.0 や 1.8→2.2 というのは無理なので、一旦 2.0 に上げる必要があります。2.0 からなら 2.2 を飛ばして 3.0 に上げることもできるようです)。

2.0 に上げるときは、手動で「データベースのアップグレードスクリプト」を動かす必要があります。
2.0.0 のアップグレードノート
https://www.zabbix.com/documentation/2.0/jp/manual/installation/upgrade_...
アップグレード
https://www.zabbix.com/documentation/2.0/jp/manual/installation/upgrade

2.2 以降は初回起動時に自動でデータベースを変換してくれるようです。
2.2.0へのアップグレードノート
https://www.zabbix.com/documentation/2.2/jp/manual/installation/upgrade_...
アップグレード手順
https://www.zabbix.com/documentation/2.2/jp/manual/installation/upgrade

3.0 についてはまだ日本語がありませんが。
Upgrade notes for 3.0.0
https://www.zabbix.com/documentation/3.0/manual/installation/upgrade_not...
Upgrade procedure
https://www.zabbix.com/documentation/3.0/manual/installation/upgrade