ウェブ監視の突然の停止
ウェブ監視が突発的に停止し、監視不能状態になることがしばしばあります。
解決方法、調査方法等アドバイスいただけますと幸いです。
【環境】
zabbix-server 2.2.2
zabbix-agent 2.2.1
【ウェブ監視】
- シナリオ
認証なし
更新間隔60秒
リトライ1
エージェント Internet Explorer10.0
HTTPプロキシあり
- ステップ
ステップは3つで
URLのみ指定
タイムアウト0秒
要求文字列なし
ステータスコードなし
そのほか
・HTTPプロキシが別で、それ以外の設定が異なるアイテムはあり。
・同様の設定のサーバがもう1台あり。
【事象】
・ウェブ監視作成後に問題なく動作するが、突然値が取得できなくなり復旧しない。
・停止するウェブ監視は動作するサーバ、経由するHTTPプロキシにかかわらない様子。
・「監視データ」→「最新データ」の画面で「最新のチェック時刻」が古い状態。
・「Web監視の設定」上のステータスは有効。
・無効→有効としても値の取得は再開しない。
・複製でシナリオを作成すると、そのアイテムはちゃんと動作する。(が、突然値が取得できなくなる)
・zabbix-agentのログには最後に値を取得できた時刻付近で特に問題となりそうなものはみあたらない。
TNK - 投稿数: 4768
Web監視の処理はZabbixサーバ上で実行されますので、Zabbixエー
ジェント側ではなくZabbixサーバ側のログを確認してください。
あと、Zabbixサーバの各プロセスのbusy率やキューの状態も確認し
てください。
takenaka.satoru - 投稿数: 10
コメントありがとうございます。
zabbixサーバ側では下記のようなエラーが出ていました。
12898:20150814:201518.640 cannot process step "http://***" of web scenario "to_proxy_copy" on host "webcheck1": Transferred a partial file
ただ、値が継続して取れているホストに対しても同様に出ておりました。
こちらはweb.test.error のアイテムとして値が取得できておりました。
ただ、そのほかのウェブ監視系のアイテム最終更新は2015/08/14 20:03頃でタイムラグがあります。
busy率 については2015/08/14 20:03 頃に突出したものはなく高いものでも
icmp pinger が25%程度(常時これくらい)
pollerが12%程度(常時ごれ暗い)
となっていました。
2015/08/14 20:13~20:17でhousekeeperが100%まで達していました。
キューについては当時の状態はわからないのですが、
現在は特に大幅に滞留しているという様子はありません。
5秒、10秒待ちに数個あらわれたり消えたりという状態です。
TNK - 投稿数: 4768
Web監視で利用するのは、pollerではなくhttp pollerです。
http pollerのbusy状況はいかがですか?
あと、「Transferred a partial file」が出るということは、もと
もとWebサーバが返信しようとしたデータすべてを受け取れず、途
中で切れている可能性があるかもしれません。
HTTP Proxyを経由しているせいかもしれませんが、正常に値を受け
取れていない可能性も考えられなくはありませんので、ご注意くだ
さい。
takenaka.satoru - 投稿数: 10
コメントありがとうございます。
http pollerのbusy率は8%程度でした。
「Transferred a partial file」が出て、正常に値が受け取れていない場合
Web監視の再開はされないということでしょうか。
また、上記以外でも下記のメッセージを最後に、監視が停止してしまったパターンもありました。
「Failure when receiving data from the peer」