ITサービスの登録・SLA監視
ZABBIX1.1.4を使用しています。
ITサービスを登録してSLAの監視を考えています。
現在、”サーバ”ノードの下に”Apache is not running・・・”等のトリガを設定してお試ししていますが、監視できているのかどうかが良く分かりません。
対象サーバ(2つ)は、Apacheが起動しているものと停止しているものを用意しています。
サービスの設定としては、
サーバ:ステータスの計算=MIN
トリガ:ステータスの計算=MAX
許容SLAはいずれも100%
のようにしています。
この状態で監視して、いずれもSLA状態は100%となったままになっています。
ITサービスの監視がどのように行われているのかすらわかっていない状態なのですが、そのあたりについてご教授いただければと思います。
宜しくお願いします。
TNK - 投稿数: 4769
システム構築側の視点では、それぞれの機器やサービスに対する状態の把握が必要になります。
しかし、システムの利用者からしてみれば、内部の細かな障害よりも、発生した障害によってサービスが受けられるのかどうかという視点での状態の把握が望まれます。
例えば、Webサーバを二重化していれば、1台のWebサーバが止まってしまったとしても、もう1台の方が正常に稼動してクライアントがその正常な方にアクセスできていれば、サービスは継続して受けられていると判断できます。
別の例として、WebサーバとDBサーバを組み合わせて利用するシステムの場合、DBサーバが正常に稼動していなければ、Webサーバにアクセスできても、DBからの情報を取得できずシステムとして機能しない場合もあるでしょう。
そういった依存関係を組み合わせて設定することで、サービスをどれだけ継続して提供できたかを稼働率として計算する仕組みがZabbixにも備わっています。
1.1.4ですとかなり古く、私はマニュアルも環境も持っていないためわかりませんが、1.6.xや1.8.xであれば、以下のような設定でできると思います。
設定例: Webサーバが二重化されていてどちらかでも動いていればサービスを継続できる場合
<code>
1.ルートの下にSLA対象のサービスとして登録
名前: Web Service
ステータスアルゴリズム: すべての子に障害があった場合に障害として検知
算出SLA: チェックする
SLAの許容値: 99.050
2.「Web Service」の子として1台目のApacheサーバ用の設定を追加
名前: Web Server 1
ステータスアルゴリズム: 子に一つでも障害があった場合に障害として検知
算出SLA: チェックする
SLAの許容値: 99.050
トリガーとリンク: チェックする
トリガー: (Apacheに障害が発生したことを検知するトリガを選択)
3.同様に「Web Service」の子として2台目のApacheサーバ用の設定を追加
</code>
このような設定を行うことで、2台のWebサーバ上で稼動しているApacheの両方が停止してしまった際に、「Web Service」が障害状態であると判断され稼働率が計算されます。
# 厳密には、負荷分散装置なども正常に稼動している必要があります。
また、複数の子のうちのどれか1台でも障害が発生したら障害とみなすならば、親のステータスアルゴリズムとして
子に一つでも障害があった場合に障害として検知
を選択します。
さらに、平日の昼間だけ動いていればよいのであれば、サービスタイムの設定も組み合わせれば良いと思います。
ni42shi - 投稿数: 9
TNKさま
詳しい説明ありがとうございました。
なんとなく頭の中では分かっていたのですが、説明・設定について説明いただき、更に理解は深まりました。
zabbixのバージョンによって結構違いもあるようですので、新しいバージョンにアップデートして動作を確認してみようと思います。