日本Zabbixユーザー会フォーラム

Zabbixソフトウェアのインストール、設定、監視設定、バグ報告に関する質問。日本Zabbixユーザー会のサイトやその他の質問もこちら。

Zabbixにて障害検知時の切り分けについて

いつもお世話になっております。

Zabbixにて障害を検知したのですが、
インフラ側の問題なのかZabbix側の問題なのか切り分けが出来ず困っております。
良い方法がありましたらお知恵をお借りしたく。

■背景
監視を行っている他社ベンダー様のサーバにおいてメンテナンスがありました。
システム影響は出ないはずでしたが、
シンプルチェック:net.tcp.service[https] にてサービスダウン(0)を検知しました。
(特に何も対応しておりませんが、後にサービスアップ(1)判定となり復旧)

■調査
対象サーバのhttpdを確認したところ、
プロセス稼働時間、ログから見てダウンしておらずZabbixがダウン検知中も起動しておりました。
また、zabbix_server.logを確認しても該当時間帯にTimeoutなどのエラー記載もありませんでした。
※net.tcp.service[http]でも監視を行っていますが、
  こちらは正常にサービスアップ(1)判定になっておりました。

■質問
サーバメンテナンスに伴う事象と考えましたが、
他社ベンダー様からは"システム影響は無い"と回答が来ております。
上記の調査からZabbix側もnet.tcp.service[https]を実行し、

WebシナリオがDNS障害復旧後も名前解決できずOKにならない

初めて質問させていただきます。

[現象]
一時的に名前解決ができなくなって接続障害となったWeb監視が、
DNSサーバーを切り戻して復旧後もOKとならない

[質問]
zabbix_server の restart、httpd の restart を行いましたが、なおもOKとならない状況です。
運用上の問題はないのですが、OKに戻すのに何か手段をご存知でしたらご教示いただけないでしょうか。

[ログ(zabbix_server.log)]
20280:20160519:174219.129 cannot process step "access_subdomain_named_url" of web scenario "Access_subdomain_named_url" on host "【ホスト名】": Couldn't resolve host name: Could not resolve host: 【ドメイン名】

[バージョン(リミテッドサポート終了となっていることは認識しています)]
Zabbix server v2.4.7 (revision 56694) (12 November 2015)

[環境・OS]
uname -a

メール返信で、障害コメント記入できませんでしょうか?

zabbix3.0を使用しています。

障害発生 → 検知 → 複数回メール送信 → コメント記入 → メール送信停止 という流れを考えていて実証済みです。

コメント記入のところをメールの返信で行えないか考えています。

標準仕様だとできなそうなので以下のことを考えています。
-------------------------------------------------------------------------------------
・メール本文に障害IDとコメントを記入して返信を行う
・スクリプトを作成して、サーバ側で、受信BOXを監視を行い
 障害IDをキーにしてAPIでコメント記入を行う。
-------------------------------------------------------------------------------------

zabbizAPIでコメント記入できるようなAPIは用意されていますでしょうか?
又は、上記のようなことを実現できる方法はありますでしょうか?
例えば・・・DBに直接書込む?などです。

宜しくお願い致します。

https サービス監視 について

いつもお世話になります。

これまで、ZABBIX2.0.10で httpsサービスをシンプルチェックで監視していました。

以下の条件式で監視しています。

{host名:net.tcp.service[https].sum(#5)}=0

ところがここ最近、WEBサーバ側でメンテナンスをして以降、サービス監視でエラーが出るようになってしまいました。
サービスは正常に稼動しているにもかかわらず、ZABBIX側では、サービス停止となってしまいます。

ほかのWEBサーバに対しても同じ条件式でhttps監視をしていますが、正常に監視できています。

メンテナンスをしたWEBサーバは他のベンダーでメンテナンス内容は不明です。

どのあたりを調整すればよいか、お知恵をいただけないでしょうか?

よろしくお願いいたします。

1つのホストから複数の障害を検知した場合のメール配信について

zabbix3.0を使用しています。

1つホストに複数のトリガを設定しています。
障害が発生するとメールを送るように設定しています。

1つホストから3つのエラーが発生したとします。
これを一通に纏めたり、ホスト単位で纏めてメールを送ることは可能でしょうか。

宜しくお願い致します。

コンテンツ配信