ウェブ監視の応答時間とレスポンスコードの原因不明な検知について
Zabbixのウェブ監視にて応答時間とレスポンスコードの
アラームを検知しましたが、該当のURLは正常に表示できる
事象が発生しました。
環境と設定内容は以下となります。
【環境】
使用バージョン :Zabbix 2.0.3
ZABBIXサーバOS :CentOS 6.4
【設定内容】
*ウェブ監視の設定*
認証 :なし
更新間隔 :60秒
エージェント:Internet Explorer 10.0
変数 :なし
有効 :チェックあり
タイムアウト:30秒
URL :http://www.******-***.co.jp
ステータスコード:200
また、以下の正常性確認も実施しましたが
名前解決、NW疎通に異常は見受けられません。
■正常性確認内容
・Zabbixサーバにて監視対象である
「www.******-***.co.jp」に対し
「nslookup」、「dig」、「ping」を実行
・Zabbixサーバが参照しているDNSサーバにて
「www.******-***.co.jp」に対し「nslookup」を実行
アラーム発生時刻帯に作業履歴がないため
設定変更は行われていない状態でしたが、
24時間以上経過しても回復しない状態だったため、
Zabbixのプロセス再起動を実施しました。
検知していたウェブ監視アラームは正常のステータスに戻りましたが、
発生原因や回避策について情報がありましたら
ご教授頂けないでしょうか。
よろしくお願い致します。
TNK - 投稿数: 4744
どのようなトリガーを設定されているのでしょうか?
その時の応答時間はどのような状態であったのですか?
その時のステータスコードは何でしたか?
その時間帯にZabbixサーバのログに何か出力されていませんか?
内部的には、curlのライブラリを利用してWebサーバへのアクセス
を試みていたはずですが、その呼び出しができていないような状態
であったのですか?
それとも、明らかに異なるステータスコードを取得し続けていたの
ですか?
頂いた情報だけでは、どこの処理に問題があったのか特定が困難で
すので、上記のような情報もご確認いただけませんでしょうか。
新しいバージョンでは修正されているかもしれませんので、2.0系
であるならば、2.0.13などの新しいバージョンに更新されることを
お勧めします。
TH612 - 投稿数: 2
TNK様
ご回答頂き、ありがとうございます。
情報が不十分で申し訳ありません。
一部情報取得できていないものもございますが、
以下に記載させて頂きます。
■レスポンスコードのトリガー設定(条件式)
{dolphin.******-***.co.jp:web.test.rspcode[contact.******-***.co.jp,contact.******-***.co.jp].count(#5,200)}=0
■応答時間のトリガー設定(条件式)
{dolphin.******-***.co.jp:web.test.time[contact.******-***.co.jp,contact.******-***.co.jp,resp].sum(300)}=0
※******-***は全て同じ文字です。
該当の時間帯にZabbixサーバのログにはエラーを示す出力はなく、
ステータスコードの取得値は『0』、応答時間の取得値は『0s』の状態が
継続している状態でした。
curlの実行結果に関しては情報取得できていなかったため、
提示させて頂く事ができません。
再現しましたら情報取得させて頂きます。
現時点の情報で分かる部分がございましたら
ご教授頂けますでしょうか。
よろしくお願い致します。
TNK - 投稿数: 4744
最新データでそれぞれのアイテムは、連続して値を取得できている
状態であったかも確認してみてください。
とはいえ、両方の値が0とのことですので、可能性としては、curl
のライブラリを利用してWeb監視のシナリオを実行しようとして失
敗していたと思われます。
可能性として、Web監視用のプロセスが異常終了していた可能性も
考えられると思うのですが、その原因となるようなものがログにも
出力されていないとなると、他の不具合からの影響を受けているの
かもしれません。
そうすると、対処としては、最新版であれば、脆弱性の問題や他の
不具合も修正されていたと思いますので、最新版を利用してみて頂
くのが、余計な不具合に影響されず問題点を明確にするためにも有
効なのではないでしょうか。