housekeeper実行中?にデータが欠ける

先々月くらいから、ZABBIXを利用し始めました。
かなり便利なので、これから本格的に運用を開始しようかと、思っているところです。

さて、現在は1.6.7を利用しています。
(日本語版のRPMよりインストールを行っています)

グラフを見ていると、ときどきデータが欠けているようなことがあります。

症状をまとめますと、
・1時間に1回程度のペースで発生している模様。
・zabbix_server.log内の「Executing housekeeper」から「Deleted 60085 records from history and trends」の間と一致するっぽい。
---zabbix_server.log---
26840:20091216:124709 Executing housekeeper
26840:20091216:125231 Deleted 60085 records from history and trends
-----------------------
・ZABBIX Agentで監視しているホストだけが起こっている模様。
 ※シンプルチェックでは発生していない。SNMPは未使用のため未確認。

自分でも多少調べたのですが、これといった原因や対応策などが見つかっておりません。
もし、何かご存知の方がいらっしゃれば、教えていただければと思っております。

よろしくお願い致します。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー kodai の写真

こんにちは。

「Deleted 60085 records from history and trends」というのはかなりの数のデータが削除されてますね。毎回そのくらいのデータが削除されたログが出ているのでしょうか?

housekeeperはデフォルトでは1時間に1回、アイテム設定の「ヒストリの保存期間」と「トレンドの保存期間」に設定されている期間以前のデータを削除するようになっています。問題のデータが欠けるアイテム設定はどのようになっているでしょうか?

ユーザー Masa の写真

返信ありがとうございます!

テンプレートをほぼそのまま利用しているので、5秒でした。
設定変更を実施して、しばらく様子を見た後、再度ご報告させていただきます。

ユーザー kodai の写真

いえ、更新間隔(監視の間隔)ではなくて、「ヒストリの保存期間」と「トレンドの保存期間」の設定項目の方です。この2つがデータの保存期間と関係しています。

ただ、標準のテンプレートを使っているのであれば、ある程度期間は長く設定されているはずなのでこの設定が問題になることはないとは思うのですが...

ユーザー Masa の写真

返信ありがとうございます。
すいません、早とちりをしてしまったようで・・・。

ヒストリは「7」、トレンドは「365」に設定されております。
一部、ヒストリが「90」といったものもありますが、どちらにせよこのあたりはテンプレートのデフォルトから変更をしていません。

ユーザー KAZ の写真

Masaさん

↓こんなエラーでてませんか?
<code>
Host [xxxxxxxxxx]: first network error, wait for 15 seconds
</code>

でている場合、グラフが刃抜けになったりします。
上記のエラーは監視対象のロードアベレージが高かったりしてエージェントから情報が収集できない場合におきます。

[監視データ]-[概要]でicmpping監視が緑(正常)で、ZABBIXエージェント監視が緑になったり、不明(灰色)になったりするとその可能性が高いです。

ユーザー Masa の写真

ありがとうございます。

エージェント起動時に、確かにそのログが出ています。
該当のホストは、ZABBIX Serverなので、いったんこのホストの監視を停止して様子を見てみます。

VMWare ESXi上で動かしているのですが、もともと負荷が高いことは認識していたので、今後割り当ての増加も検討する必要があるかもしれません。

ユーザー kodai の写真

負荷が高くて監視データの取得ができないようであれば、タイムアウトの設定を見直すことで改善できる場合もあると思います。

zabbix_agentd.confのTimeout設定や、zabbix_server.confのTimeout、TrapperTimeout、UnreachablePeriod、UnavailableDelayなどの設定を少し増やされてみてはどうでしょうか。

ユーザー Masa の写真

連絡が遅れましてすいません。

下記のエラーが出ているホストの監視を、無効化したあと、
Host [xxxxxxxxxx]: first network error, wait for 15 seconds

データが欠けてしまうようなことはなくなりました。

該当のホストの監視は実施したいので、今後適宜設定などを見直していきたいと思います。

ありがとうございます。
取り急ぎお礼まで。