突然「unreachable」が届くようになりました

こんにちは。Zabbix初心者です。
毎回こちらのサイトで情報を得て、勉強をしております。
いつも貴重な情報をありがとうございます。

早速ですが、対処に困っている事があり、投稿させていただきました。

あるサーバ「SERVER-A」から、突然以下のメッセージが飛ぶようになってしまいました。
------------------------------------------------------
DATE : 2014.07.28
TIME : 16:04:34
Trigger: Server SERVER-A is unreachable
Trigger status: Server SERVER-A is unreachable:PROBLEM
------------------------------------------------------

しかし、数分経つと、
------------------------------------------------------
DATE : 2014.07.28
TIME : 16:05:34
Trigger: Server SERVER-A is unreachable
Trigger status: Server SERVER-A is unreachable:OK
------------------------------------------------------

というメッセージが飛んでくるので、全くつながらないというわけではなさそうです。
こちらのサーバは監視を初めて、半年以上経過しており、
いままでこのようなメッセージが飛んでくることはありませんでした。
週末から、急に飛ぶようになりました。

自分なりにやってみたことは以下のとおりです。

・Zabbixエージェント側のサービス再起動
・Zabbixエージェント側のconfファイルで、log採取を最大にして(デバッグモード)ログを取ってみた(→Errorという記述は出ていなかった)
・Zabbixサーバ側のサービスを再起動
・Zabbixサーバ側のSERVER-Aのホスト設定を一旦削除し、再度作りなおした。
・SERVER-Aのイベントログを見てみた(→異常なし)

以上です。この他に確認することは有りますでしょうか?
また同様の事象が起きた方、いらっしゃいますか?
何か対処などをご存知でしたら教えて下さい。

よろしくお願いいたします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

質問される際には、利用されているZabbixのバージョンや、今回の
ご質問内容であれば、どのようなアイテムとトリガーが設定されて
いるのかをお教えください。

標準のテンプレートをそのまま利用していたとしても、バージョン
によって設定が微妙に異なっていたり、ご自身では認識されていな
くても、他の方が設定を調整されているかもしれませんので、現時
点の設定内容も合わせてご質問頂けるとありがたいです。

「Server SERVER-A is unreachable」という文字列から勝手に想像
させて頂くと、Zabbix 1.8系のTemplate_Linuxなどで設定されてい
たトリガーかもしれません。

そうすると、トリガーの条件式は、

 {Template_Linux:status.last(0)}=2

というような条件式かと思います。

そうすると、Zabbixエージェントから値が取得できない時に2に設
定されたと思いますので、設定されているアイテムのいずれかが取
得できない状態が発生してしまっているのだと思われます。

時間が経過すると取得できるようになるようですので、トリガーが
発生する時間帯に一時的に負荷が高くなっていたりしませんか?

もし、負荷が高くなっていてエージェントが応答するまでの時間が
長くなってしまっているのであれば、サーバ側、エージェント側と
もに設定ファイルのTimeoutの値を伸ばして、zabbix_serverと
zabbix_agentdの両方を再起動してみてください。

ただし、この「status」というアイテムのキーは、Zabbix 2.0以降
で廃止されましたので、今後、Zabbix 2.0以降に移行される場合は、
別のキーとトリガーを利用して監視するように修正することが必要
ですのでご注意ください。

例えば、エージェントの応答が無いのをチェックする際には、アイ
テムとしてキーにagent.pingを指定したものを用意しておいて、そ
れが5分間応答が無ければトリガーを発生させるというような設定
を行ったりします。
設定例は、Zabbix 2.2などのテンプレート「Template App Zabbix
Agent」などの設定内容をご確認ください。

TNK様

おはようございます。
回答ありがとうございます。

バージョンや設定の件、明記しておらず、申し訳ありませんでした。
--------------------------------------------
Zabbix Server 1.8.15
--------------------------------------------

また、対象サーバ「SERVER-A」のアイテム設定は、1.8.15標準の
「Template Windows」のものを利用しております。
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
--------------------------------------------
perf_counter[\PhysicalDisk(_Total)\Avg. Disk Read Queue Length]
perf_counter[\PhysicalDisk(_Total)\Avg. Disk Write Queue Length]
vfs.file.cksum[c:\autoexec.bat]=無効化中
vfs.file.cksum[c:\config.sys]=無効化中
perf_counter[\System\File Read Bytes/sec]
perf_counter[\System\File Write Bytes/sec]
vfs.fs.size[d:,free]
vfs.fs.size[e:,free]=無効化中
vfs.fs.size[c:,free]
vm.memory.size[free]
system.swap.size[,free]
system.uname
status
system.uptime
proc.num[]
system[procrunning]
proc_cnt[httpd]
perf_counter[\System\threads]
agent.ping
system.cpu.load[,avg1]
system.cpu.load[,avg5]
system.cpu.load[,avg15]
service_state[Dhcp]
vfs.file.size[c:\msdos.sys]=無効化中
vfs.fs.size[d:,total]
vfs.fs.size[c:,total]
vfs.fs.size[e:,total]=無効化中
vm.memory.size[total]
system.swap.size[,total]
agent.version

アラームが飛んでくるトリガーの設定
{SERVER-A:status.last(0)}=2
--------------------------------------------

ご指摘の通り「Status.last」を利用しており、この戻り値が「0→2」を繰り返すようになってしまったのです。
教えていただいた通り、アイテムを再度精査し、どのアイテムが取れていないのか見てみました

system[procrunning]=取得不可
proc_cnt[httpd]=取得不可

となっていましたので、こちらを無効化して、様子をみてみたいとおもいます。

また、もう1点のアドバイスにありましたとおり「一時的に負荷が高くなっている」
という点については、Zabbixサーバの「processor.load」を見てみました。
添付のような状況で、サーバ側は一定間隔で負荷は上がっているようでした。

まずは、Timeout値を調整し今日1日様子をみてみようと思います。
アドバイスありがとうございました。
結果がでましたら、ご報告させていただきます。

自己レスです。その後の状態をご報告致します。

無事、解決いたしました。

結果から申しますと、以下の現象が関係していたようです。
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
--------------------------------------------------------------------
■システム起動から 497 日経過すると、TIME_WAIT 状態であるすべての TCP/IP ポートが閉じられない
http://support.microsoft.com/kb/2553549/ja
--------------------------------------------------------------------

TNK様からのアドバイスをうけ、取得不可のアイテムなどを調べておりました。
また、Timeoutの設定などを調整して様子を見ていたのですが、
時々「SERVER-A」のエージェント状態が「赤く点灯」している事に気づきました。

Zabbixサーバから、SERVER-Aに向けて、以下のコマンドを実施したところ
telnet XXX.XXX.XXX.111 10050
Trying XXX.XXX.XXX.111...
telnet: connect to address XXX.XXX.XXX.111: Connection timed out
という状況でした。

次に、SERVER-Aのコマンドプロンプトから、netstatを実行したところ、
大量の接続待ち通信が表示されており、10050の通信が行えない状態になっておりましたため、
WindowsOSの観点で調査をし、上記のMS不具合サイトを発見したしだいです。
早速、MSの修正パッチを適用して、現在に至ります。

SERVER-Aは稼働したまま「497 日」を迎えたことにより
上記の不具合に該当したようです。

お騒がせしました。
また、アドバイスを頂き、ありがとうございました。