CPU負荷(LoadAve)監視にて
いつもお世話になります。
サーバリソースの監視として各使用率/使用量の監視をしていますが、
少々理解し難い現象がありましたので、お教え願います。
<設定>
90s間隔でCPU負荷監視を行っており、しきい値として「5」を設定していて、
連続3回超過した場合にアラートという設定にしています。
・アイテム:system.cpu.load[,avg1]
・トリガー:{template_xxx:system.cpu.load[,avg1].last(#3)}>5
<現象>
アラートメールに取り込んでいる最新の値には「0.66」とあり、
また、ZabbixServerにて確認したところ上記値の前後の取得値は、
古
↓ 4.35
8.13
2.98
0.66
0.32
0.14
0.41
新
のようになっています。
※ちなみに次の90s後の0.32をもってリアーム(復旧)という旨が
通知されています。
他の正常値でこのような検知がないので、「たまたま」なのかな?とも思ってますが、
設定上の不備で本現象が発生しているならば、ご指摘頂きたく。
(もし、不備あらば他のリソース監視もほぼ同様の構文としているため、対応しなくてはなりません)
どうか宜しくお願い致します。
kaeru - 投稿数: 264
>>Didier0802 様
last関数の#nは、n番目に新しい値となっているため、
この式では3番目に新しい値が5より大きかったら…となるかと思います。
https://www.zabbix.com/documentation/2.2/jp/manual/appendix/triggers/fun...
ご記載の設定をするのであれば以下でいかがでしょうか。
{template_xxx:system.cpu.load[,avg1].count(#3,5,gt)}=3
→直近3回の値から5より大きい数をカウントし、3と等しかったら障害
またはmin関数を使用した以下の式でも実現可能かと思います。
{template_xxx:system.cpu.load[,avg1].min(#3)}>5
→直近3回の値の最小値が5より大きければ障害
Didier0802 - 投稿数: 37
kaeru様
ご返答ありがとうございます。
まったく分かってませんでした。(トリガ設定での「カウント」の意味を分かってませんでした)
毎回ありがとうございます。助かりました。m(_ _)m