Zabbix の監視データが途切れる問題
皆様
掲題の件で相談させて下さい。
OS:Cent OS 6.7
Zabbix:2.2.11
上記環境で Windows Server の監視を行っているのですが、1分ごとに監視している項目(ネットワークトラフィックやサービス死活監視など)が
毎時○○分~○○分までしか値を取得しないという問題に直面しております。
例)トラフィックの最新データを「値」で表示
下記のように、毎時05分~13分までしか値を取得できていない
2016/06/24 09:13:17 14624
2016/06/24 09:12:17 28504
2016/06/24 09:11:17 16648
2016/06/24 09:10:17 14888
2016/06/24 09:09:17 14864
2016/06/24 09:08:17 19864
2016/06/24 09:07:17 26424
2016/06/24 09:06:17 35496
2016/06/24 09:05:17 51288
2016/06/24 08:13:17 9856
2016/06/24 08:12:17 24856
2016/06/24 08:11:17 5800
2016/06/24 08:10:17 15008
2016/06/24 08:09:17 5000
2016/06/24 08:08:17 7832
2016/06/24 08:07:17 8888
2016/06/24 08:06:17 5368
2016/06/24 08:05:17 6896
LLD を利用しているトラフィックだけでなく、通常のアイテムに登録している CPU ロードアベレージ(system.cpu.load[percpu,avg1])でも
状況は同じで、原因の切り分けが出来ず困っております。
サーバとクライアントのどちらに原因があるのかも判断できていないのですが、考えられる原因は何かありますでしょうか。
ご教示頂けると幸いです。
TNK - 投稿数: 4755
監視している規模に対して、処理を行うためのプロセス数が不足し
ていて、アイテムの値を取得する処理が間に合わない状態になって
いる可能性が高いと思われます。
Zabbixサーバーのキューの状態や、各プロセスのBusy状態を確認し
てみてください。
キューの確認:
管理 -> キュー
で遅延が多い処理がないかを確認
Zabbixサーバーの各プロセスのBusy率:
最新データ -> マップ -> Localnetwork
「Zabbix server」のアイコンをクリックしてホストスクリーン選択
右上のプルダウンで「Zabbix server health」を選択
他にも、Zabbixサーバーで利用しているデータベースのI/Oの処理
がボトルネックになってしまっていないか、サーバの負荷状態やト
ラフィックの状態も確認してみてください。
The Key - 投稿数: 5
TNKさん
ご回答頂きありがとうございます。
また、返信が遅くなり申し訳ありません。
プロセスのBusy状態ですが、遅延は発生していないことが確認できました。
そして、いったん Zabbix Server の再起動を行ってみたところ、DB が破損
しているというエラーが Zabbix の Web コンソール上に表示されるという
現象が発生しました。
[Table './zabbix/history' is marked as crashed and should be repaired]
どうやら Zabbix Server と言うより MySQL に問題が発生しているようです。
http://xoops.fens.net/modules/wiki/?Linux%2FMemo%2FZABBIX%2F20110904
こちらを参照し recover を実行したところ、処理自体は完了して Web コンソール
上からも上記エラーは消えたのですが、数分するとまた同様のエラーが表示
されてしまうような状態です。
私が使用している環境では監視は最低限 ping による死活監視が出来て
いればOKという状況で、かつホスト数も20数台と多くないことから、別の
サーバを立てて監視を続行できる状態にしました。
My SQL については別途時間を作って対応したいと思います。
kaeru - 投稿数: 264
誤投稿です。失礼しました。