日本Zabbixユーザー会フォーラム

Zabbixソフトウェアのインストール、設定、監視設定、バグ報告に関する質問。日本Zabbixユーザー会のサイトやその他の質問もこちら。

Zabbix Server が MySQL DB へ書き込みを実施する際の duplicate entry に関して

2台のActive/Active構成のZabbix Serverにて同じDBを参照しています。

環境は以下となります。
Zabbix Server のバージョンは 4.0.23
DBは MySQL 8.0.11

それぞれを Active 1, Active 2 とします。
監視対象のWindowsサーバでFireWallのポートをActive 2だけあえて閉じました。
元々 Active 1 からは監視できていたので監視サーバのWebUI上ではWindowsサーバの
ステータスを取れていました。

そこであえてActive 1のzabbix-server.serviceのプロセスを落とし、Active 2のみを残したところ
想定通り、FireWallによって拒否されている為、Windowsサーバのステータスが取れなくなりました。

agent pingもマネージャから見て通っていない状況ですが、監視対象の Windows Server が
「Zabbix agent on hostname is unreachable for 5 minites」となりません。

Zabbix Server側のログを確認したところ、以下のようなログが吐かれておりました。

◆ログ
```

計算アイテムの引用符について

いつもお世話になっております。

Server
OS:RHEL8
Version:5.0.2

Agent
OS:Windows10
Version:5.0.2

CPU idle値をキー:perf_counter_en["\Processor Information(_total)\% Idle Time"]を取得すると
100%を超えてしまうことがある(トピック:CPUのidle値が100%を超える で質問済み)ので
計算アイテムにて、
100-perf_counter_en["\Processor Information(_total)\% Processor Time"]
で取得を試みたのですが、引用符の記述に誤りがあるみたいで値を取得できません。

例:100-"perf_counter[\"\\Processor Information(_total)\\% Processor Time\"]"
→ 取得不可

どなたかお知恵をかしていただけないでしょうか。

以上です。よろしくお願い致します。

システムリストア時にイベントログの再読み込みが発生して大量のアラートが発生される

Zabbix 3.0.7

イベントログを監視しているWindows Serverのメンテナンスを実施していましたが、
上手くいかなかったため、作業前の状態にシステムリストアを実施しました。

すると数か月前~現在までのイベントログが再度最新データとして追加(再読み込みが発生して)され、
大量のアラートメールが通知されました。

色々調べているとおそらくシステムリストア時にイベントログのファイルサイズが小さくなったため、
イベントログの再読み込みが発生したのだと思っています。(原因が異なる場合はご指摘いただけますと幸いです)
http://www.oss-kanri.org/siryou/study2_MLmiyashita.pdf

そこで、本事象を解決するために、以下どちらかの設定を実施することは可能でしょうか。

1.アイテムの設定:イベントログの再読み込み発生を防ぐ方法
2.トリガーの設定:過去に発生したイベントログは障害として検知しない(無視する)

====================================
アイテム
eventlog[System,,"Error"]
eventlog[System,,"Warning"]

トリガー

障害発生時に大量に出力されるメッセージの監視制御について

◆質問の背景
現在とあるログに対し、特定のキーワードを含むメッセージが出力された場合に検知するようログ監視の設定をしております。
障害が発生した場合に上記特定キーワードを含むメッセージが大量にログに書き出されるのですが、1件1件のメッセージ検知ごとに
障害発報をするのは運用上好ましくない為、一定時間内に同じメッセージが複数件出力される場合は(現状10秒間に5件以上出た場合は)、
1件の発報となるよう、2つのトリガーに依存関係を持たせ、count式を用いて以下の通り設定をしております。(※下記「現状のトリガー設定」を参照願います。)

◆質問内容
下記トリガー設定により(1)、(2)のように実現したいことができているのですが、
(2)の事象後、数分経過後に再度同じメッセージが出力された場合に、(2)で発報されなかった残りのメッセージ件数分の障害発報が後から
されてしまう、といった事象が発生しております。

【実現できている事象】
(1) 10秒間で4件以下のメッセージ出力の場合 ⇒ トリガー①で検知され、出力件数分の障害発報が実施される。
(2) 10秒間で5件以上のメッセージ出力の場合 ⇒ トリガー②で検知され、最後のメッセージに対する障害発報(1件)が実施される。

CPUのidle値が100%を超える

いつもお世話になっております。

Server
OS:RHEL8
Version:5.0.2

Agent
OS:Windows10
Version:5.0.2

CPUのidle値をキー:perf_counter_en["\Processor Information(_total)\% Idle Time"] で取得したところ
100.0225 % など、100%を超える値を取得することがあるのですが、こちらは仕様/バグのどちらでしょうか。
仕様である場合、何か回避策はありますでしょうか。

お知恵をかしていただければ幸いです。
以上です。よろしくお願い致します。

コンテンツ配信