日本Zabbixユーザー会フォーラム

Zabbixソフトウェアのインストール、設定、監視設定、バグ報告に関する質問。日本Zabbixユーザー会のサイトやその他の質問もこちら。

Zabbix4.4.[4-7] ダッシュボード画面のグラフ表示の欠損について

RHEL8.1上でZabbix4.4.7(postgresql12/nginx)を稼働させていますが、ダッシュボード画面のグラフの表示が正常ではありません。
添付した画像の赤枠内のように、画面下部のデータ文字列が見えなくなってしまっています。地味に使いにくい、イケていない状態です。

Zabbix4.4.4から起きていて、最新版にアップグレードしましたがだめでした。
事象が起きているのはダッシュボードだけです。何か分かる方がおりましたらお力添えいただきたいです。

Less than 5% free in the value cache

Zabbix3.4を利用しています。

Less than 5% free in the value cache のアラートが表示され、
その40分後に、Zabbix value cache working in low memory mode となりました。
確認すると、昨日11時ごろから、1時間に4%ほどの減少しているグラフが確認できました。
60%あったvalue cacheも、14時間で5%を下回るほどまで減少しました。

現在はvalue cacheは10%程度まで回復はしておりますが、引き続き対処が必要な状況です。
以下の方法を実施しようと思っているのですが、間違っていたらご教示ください。

 ①ValueCacheSizeの値がデフォルト(8M)なので、拡張する。
 ②拡張後、再起動してValueCacheを開放する。

そもそもなにが原因で減少していくことになったのか、確認する手段はございますでしょうか。
併せてご教示ください。

zabbixアイテムsystem.cpu.utilについて

いつもお世話になっております

Zabbixの監視設計を考える中で疑問がございましたので、
ご存じでしたら教えてください。

zabbixアイテムsystem.cpu.util[,idle,avg1] を使って、
マルチCPU(4CPU)のホストを監視しようと考えております。

system.cpu.utilの説明にはパーセント単位のプロセッサの使用率と記載があるので、
system.cpu.util[,idle,avg1] だとパーセント単位でプロセッサのアイドルタイムを1分間平均でとってくる認識です。

ここで疑問なのは、 system.cpu.util[cpu,type,mode] で
cpu - CPU番号(デフォルトは全CPU)と記載があり、指定しない場合は4CPUの平均値になるのでしょうか?

system.cpu.util[,idle,avg1] の値は
(1CPUの1分間の平均値)+(1CPUの1分間の平均値)+(1CPUの1分間の平均値)+(1CPUの1分間の平均値)
それとも
(1CPUの1分間の平均値+1CPUの1分間の平均値+1CPUの1分間の平均値+1CPUの1分間の平均値)/4
上記のどちらになるのでしょうか?もしくはいずれにも該当しないのでしょうか?

以上、よろしくお願いいたします。

トリガーの変更について

お世話になります。
現在以下のトリガーにて/var/dumpsaveareaのFree disk spaceを監視しています。

名前:Free disk space is less than 20% on volume /var/dumpsavearea
深刻度:警告
条件式:{******:vfs.fs.size[/var/dumpsavearea,pfree].last(0)}<20

この閾値を95%に変更したく、設定変更しようとしたところグレーアウトになり設定変更できません。
変更方法があればご教授いただきたいです。

依存アイテムの親アイテムデータが巨大な場合の対処

お世話になります。
Zabbix ServerおよびProxy いずれも4.2.8を使用しています。

Dockerのコンテナパフォーマンス監視を目的に、テンプレートを作成しました。
cAdvisorのPrometheus exporterから取得したmetricsを親アイテムとし、
その依存アイテムでCPU負荷やその他諸々を(保存前処理のPrometheusパターンで)取得する、といったものです。

手元の試験環境で正常動作を確認したので、本番環境に投入したところ即座にProxyが落ちました。
確認すると、zabbix_proxyプロセスがoom_killerで落とされていました。

親アイテム(metricsの結果)はテキストデータで6MBあり、
テンプレートにはコンテナあたり12個の依存アイテム(プロトタイプ)があります。
6MB*12*(コンテナ数)の処理が同時に走るため、実メモリが512MBであるProxyでは
大量のコンテナの依存アイテム処理が持たなかったようです。

もちろんProxyのメモリ増強が最もストレートな解決策だと思います。

また次善の策として、親アイテムをexternalscriptで予めgrepするという方法も考えられます。

コンテンツ配信