定時に実施される高負荷処理の警告の抑止と例外
OS : CentOS 8.2
zabbix_server : 5.0.2
cronで1日1回、ウィルスチェックを行っています。
その間、CPU、メモリ共に負荷が上がるため、
適用しているLinuxのテンプレート(Template OS Linux by Zabbix agent)の
CPU,メモリのトリガーの条件に達し、
毎日ほぼ同じ時間に警告が通知されています。
zabbixサーバの監視対象のVMが多数あるため、
現状ではほぼ同じ時間帯に、多数の警告が通知されてしまうので、
できれば毎日の時刻指定でメンテナンス中にしたいところなのですが、
そうすると、ウィルス検知のログ監視の通知まで止まってしまいます。
ウィルス検知のログ監視だけは、通知されるようにしたいです。
メンテナンス中でも特定のトリガーだけは通知する、
もしくは、トリガーに対して、時間帯で検知を抑止するということは
できますでしょうか?
Yasumi - 投稿数: 380
CPU、メモリのアイテムに「監視間隔のカスタマイズ」を設定すればよいと思います。
例外設定に監視間隔0にして、対象時間を入れてみてください。
hige.no.papa - 投稿数: 53
早速のご回答ありがとうございます。
そういう方法があるのですね。
試してみます。
hige.no.papa - 投稿数: 53
トリガー:High memory utilization ( >{$MEMORY.UTIL.MAX}% for 5m)
の条件式のアイテム、
Template OS Linux by Zabbix agent:vm.memory.utilization.
は、これ自体は、監視間隔のカスタマイズはできなくて、
マスターアイテムが
Template OS Linux by Zabbix agent: Available memory in %
ってなっているので、こちらの監視間隔をカスタマイズしたのですが、
警告が上がってしまいました。
監視間隔のカスタマイズの例外設定としては、
監視感覚:0s
期間;1-7,2:00-3:00
という設定をしたのですが、指定方法はこれで間違っていませんでしょうか?
ちなみに、監視間隔のカスタマイズの例外設定がうまく機能した場合、
最新データでそのアイテムを表示したときに、
例外設定した時間帯は、最新データが表示されなくなるのでしょうか?
それとも、通常通り表示されるのでしょうか?
例外設定が期待通り機能しているかどうかの確認方法があれば、
ご教示いただけませんでしょうか。
hige.no.papa - 投稿数: 53
原因らしきものがわかりました。
zabbix の GUI上は日本時間での表示となっているのですが、サーバ自体の時刻は UTC の設定となっていて、UTC での 2:00-3:00 の間が抑止されていたようです。
抑止対象の時間帯は、データ収集を行わないため、グラフ等も表示されなくなるのですね。
hige.no.papa - 投稿数: 53
ご紹介いただいたアイテムの「監視間隔のカスタマイズ」を設定すると、指定した時間帯のデータ自体が収集されなくなってしまうため、抑止した時間帯の実際の状態が見れなくなってしまうのですが、できればデータ自体はグラフや再任データで参照できるようにしたいです。
ちなみに現在は、メモリ使用量のアイテムには手を入れず、警告が上がってしまうのですが、抑止したい時間帯の基礎データは収集するようにして、算出で求められるメモリ使用率についてだけ、監視間隔のカスタマイズを行っている状況です。
トリガー、もしくは、一定の深刻度以下の場合のアクションを、特定の時間帯は抑止するということはできないのっでしょうか。
メンテナンス期間の設定の「ホストとホストグループ」の画面で、タグを指定すると、そこにマッチしたものを抑止できるかと思って、「タグ」欄に「memory」と記載し、「含む」を選択し、「値」欄は未設定で登録したのですが、それだと「memory」に関する警告の抑止できませんでした。
「タグ」の指定で特定の警告を抑止できるのだとしたら、どのように指定すればいいのでしょうか?
TNK - 投稿数: 4720
トリガーにはどのようにタグ(名前と値)を設定されたのですか?
hige.no.papa - 投稿数: 53
使用しているトリガーは、『Template OS Linux by Zabbix agent』の
『Lack of available memory ( < {$MEMORY.AVAILABLE.MIN} of {ITEM.VALUE2})』
を、デフォルトのまま使用しているのですが、
トリガーにタグを設定しておく必要があるということでしょうか?
提供されているテンプレートに手を入れることはあまり想定していなかったのですが、
タグの名前や値としては、どのような設定をするのが妥当なのでしょうか?
また、メンテナンスの『ホストとホストグループ」で指定するタグの
『含む』『等しい』の比較対象となるのは、
トリガーのタグの『名前』ではなく、『値』の方でしょうか?
『値』で判定するということであれば、トリガーで設定する『値』は、
固定値ではなく、可変値が設定できるのではないかと思うのですが、
ホスト名や、ITEM.VALUE等の変数等が指定できるのでしょうか?
TNK - 投稿数: 4720
トリガーにタグを設定していれば、そのタグの名前と値を使用して
メンテナンスの設定内のタグの条件に付加することができます。
デフォルトで登録されているテンプレートは設定のサンプルです。
導入する会社やネットワークの運用ポリシーに合わせてカスタマイ
ズして使用することを検討すべきです。
タグの付け方は自由です。
何を妥当と判断するかは、何をしたいか次第です。
例えば、マニュアルには、どんなサービスで使っていて、どの顧客
のものであるかを区別するようなタグをつけているようです。
https://www.zabbix.com/documentation/5.0/manual/config/event_correlation...
例えば、今回の場合であれば、ウィルスチェックのサービス用であ
った場合に除外したいわけですから、タグの名前と値は、
名前: Service
値 : VirusCheck
などとしても良いかもしれません。
値の方です。
https://www.zabbix.com/documentation/5.0/manual/maintenance#configuration
できますが、どこでもなんでもできるわけではないので、マニュア
ルを確認してください。
https://www.zabbix.com/documentation/5.0/manual/config/event_correlation...
hige.no.papa - 投稿数: 53
トリガー個別に抑止が可能になるのだとすると、特定の時間帯に抑止したいものは、他にもいくつかあるので、
タグの名前や値については、それらを整理したうえで設定しようと思います。
テンプレートの活用方法を含め、丁寧にご回答くださりありがとうございました。