フラップ検知機能の有無について
ZABBIX-JP関係者様、フォーラム参加者様
職場のネットワーク監視にZABBIXを活用している者です。
いつも有益な情報交換、ありがとうございます。
機器を監視していると、ものによって短時間に障害と復旧を繰り返すフラッピングを検出します。
そうするとメール通知のSPAM状態になります。
Nagiosの場合、フラッピングを検知し、その開始と停止を通知する機能がありますが、ZABBIXに同様の機能がございますでしょうか?
というか、要するにフラッピングが発生した場合のメール通知SPAM状況を何とかしたいだけなので、その回避方法(テクニック)でも結構です。
よろしくお願いします。
TNK - 投稿数: 4769
Nagiosと同等のフラッピングに対応する機能は、Zabbixにはありません。
Zabbixの場合、トリガーの閾値の調整、条件式の変更、エスカレーションの設定などの組み合わせを工夫して、不要な通知が行われないようにすることになると思います。
もう少し具体的に発生しているフラッピングの状態を教えていただけませんでしょうか。
お教え頂ければ、設定方法の案をご提示できるかもしれません。
よろしくお願い致します。
kodai - 投稿数: 1341
私の場合はトリガーの条件式で工夫していることが多いですね。
トリガーでlast()関数を使うと一度でも閾値をまたぐとイベントを生成してしまうので、avg()を使って平均を取ってみたり、count()関数を使って回数指定でイベントを生成するようにしています。
zuckey - 投稿数: 17
KODAI様
ご助言いただきありがとうございました。
avg(), count()関数を使ってみる、と言う方法。ZABBIX初心者の当方には思いも付きませんでした。
そう言う方法もあるわけですね。
書籍を参考にそれらについて勉強してみます。
判らない点が出てきましたら、お手数ですが再度よろしくお願いします。
zuckey - 投稿数: 17
TNK様
いつも有益なご助言、ありがとうございます。
当方が経験しているフラッピングは単純なもので、シンプルチェックでping応答を見ているアプライアンス機器があり、同じ機種2台が、まったく同様にping応答でPROBLEMとOK!を短時間に何度も繰り返します。
timeout値を長くしてやれば良いのかと思って、fpingの規定値らしい500msecを倍の値にしてみたのですが事態は何も変わりませんでした。
良い設定方法がございましたら再度のご助言をお願いします。
TNK - 投稿数: 4769
機器によっては、時々pingの応答タイムアウトが発生する場合があるようです。
icmppingを利用していて、正常に起動しているにも関わらず失敗が発生してしまうような場合は、既に設定されているようですが、タイムアウトの時間を延長することで対応できる場合もあります。
それでも対応できない場合は、例えば、連続して3回以上pingの応答がなかったりした場合は障害とみなすことが考えられます。
その時は、トリガーの条件式を以下のようなものにすると良いかもしれません。
<code>
({ホストまたはテンプレート:icmpping.count(#3,0)}>2)&({ホストまたはテンプレート:icmpping.last(0)}=0)
</code>
他にも、過去10回のうち成功が7回未満だった場合というような条件とすることも考えられます。
その時は、トリガーの条件式を以下のようなものにすると良いかもしれません。
<code>
({ホストまたはテンプレート:icmpping.sum(#10)}<7)
</code>
よりよい設定もあると思いますので、お勧めの設定があればご教授下さい。>みなさま