日本Zabbixユーザー会フォーラム

Zabbixソフトウェアのインストール、設定、監視設定、バグ報告に関する質問。日本Zabbixユーザー会のサイトやその他の質問もこちら。

ログ監視におけるcountトリガーについて

お世話になります。いつも参考にさせていただいています。

ログ監視のトリガーにcountを使用して一定回数以上の文字列検知をアラート通知しようと
しているのですが、トリガーに引っかかりません。
同じアイテム、トリガーを別のバージョンのzabbixに設定したところうまく動作するので
文法間違い等ではなさそうですが、バージョンによって動作しないということしか
考えにくいのですが、そのような情報はお持ちの方いらっしゃいますでしょうか。

アイテム:log[/var/log/messages,"error"]
トリガー:{Template OS Linux:log[/var/log/messages,"error"].count(1500,"eia")}>3
監視間隔:30秒

ログファイルには「error xxxxx HOSTNAME=NNN」のようなログが出力され、
NNNの部分にトリガーに設定している「eia」が入った時だけアラートを
上げようとしています。(25分間のうち4回以上出力された場合にアラート)

■うまくいかない方
・zabbix 1.8.10
・OS:RHEL6.0
・アイテムのヒストリにはログが記録されており、25分間中に4回のeiaが含まれる
 ログも確認されていますが、イベントとしては上がってきません。

一定回数または時間の間の障害・復旧繰り返し中は通知しないようにする方法について

お世話になります。いつも参考にさせていただいております。

以下のように、一定回数または時間の間の障害・復旧繰り返し中はトリガー起動しない、またはアクション通知しないようにする方法がないでしょうか?
意図としては、障害発生して回復と復旧を繰り返している間は通知せず、回復状態が続いたら安定したと見なして回復通知する、という監視を実現したいということです。

例)
ロードアベレージ閾値:4
時間 ロードアベレージ
0:01 3 
0:02 5 ー>障害発生したのでトリガー起動、通知
-------------------------------------------------
0:03 3 ー>この間は、障害と
0:04 5 ー>復旧を繰り返しているので
0:05 3 ー>トリガー起動しない、または通知しない
-------------------------------------------------
0:06 2
0:07 2
0:08 2 ー>復旧したと見なして回復通知する。

アイテムの戻り値が文字列で変更された場合にトリガーを起動する方法について

お世話になります。いつも参考にさせていただいております。

ある監視アイテムの戻り値が文字列で、直近とその前の比較で変更された場合に、トリガーを起動する。
という監視を実現したいと考えております。

例)
時間 アイテム値       期待値
1:00 a a a(正常な状態) ー>トリガー(正常)起動せず
1:05 a b b(異常な状態) ー>トリガー(異常)起動する
1:10 a b b(異常な状態が継続)ー>継続なのでトリガー(異常)起動しない
1:15 a a a(正常な状態に戻った) ー>トリガー(正常)起動する

{host:item_name.last(1).change()}=1で検証してみたのですが、
1:10に前回と同じ値となっているため、期待値と異なり、トリガー(異常)が起動してしまいます。

期待値通りの結果となる設定をご教示いだだけないでしょうか。

「first network error, wait for 15 seconds」と「Cannot connect」エラーについて

いつもこちらのサイトで勉強させて頂いています。

【環境】
・ZABBIX1.4.6
・AmazonEC2環境(DebianLinux)
・5年ほど前から運用中

ここ1,2ヶ月でzabbix_server.logのサイズが急に増えており、中身をみたところ、以下のError情報が繰り返し表示されていました。
XXXと隠しているところは全て監視対象で、同一URLです。

-----
11798:20150705:131747 Get value from agent failed. Error: Cannot connect to [184.72.XXX.XXX:10050] [Interrupted system call]
11798:20150705:131747 Host [Hoge_Honban]: first network error, wait for 15 seconds
11798:20150705:131747 Parameter [system.cpu.load[,avg15]] will be checked after 80 seconds on host [Hoge_Honban]
11799:20150705:133247 Timeout while answering request

メンテナンス期間の通知について

いつもお世話になっております。

メンテナンス期間の通知について教えていただきたいことがあります。
【環境】
 ・OS・・・CentOS 5
 ・Zabbixバージョン・・・1.8.5

【各種設定】
 ・アイテム:イベントログ取得 eventlog[ADAM(VMwareVCMSDS),@正規表現]
 ・トリガー:[~~~~~~~~].logseverity(0)#1 深刻度は重度の障害
 ・アクション:条件ーメンテナンス状態 期間外 ”メンテナンス”
             トリガーの値:障害
             トリガーの深刻度:重度の障害
 ・メンテナンス設定
    データ収集あり
    開始時刻 9:00 on 2015 6月27  期間: 1d13H  一度限り

【確認事項】
 上記のような設定を行ったのですが、メンテナンス時間帯に通知される事象がありました。
 メンテナンス時間帯には同じイベントを複数(3回)検知しているのですが、
 1件だけ通知されました。
 このようなことは実際に起こるのでしょうか。

 他に何か必要な情報がありましたらご連絡いただけますでしょうか。

 

コンテンツ配信