毎時LoadAverageが意図せずに上昇する現象を回避したい
お世話になります。かなものと申します。
わからない事がありましたのでご相談させて下さい。
インストール環境化は以下の通りです。
・OS
CentOS5.5
・パッケージ
zabbix-agent-1.6.9-1.el5.JP
zabbix-server-mysql-1.6.9-1.el5.JP
zabbix-web-1.6.9-1.el5.JP
zabbix-server-1.6.9-1.el5.JP
zabbix-1.6.9-1.el5.JP
zabbix-web-mysql-1.6.9-1.el5.JP
上記環境にて発生している「毎時LoadAverageが意図せずに上昇する現象」を回避したいと考えております。
このLA上昇により、上昇時にアラートを誤検知してしまい、不要な警告が発生しています。
調べた所、デフォルトでは毎時にログファイルの削除を行っている所までわかりました。
下記過去ログの記事によると、housekeeperという定期ログ削除機能がある事を知りました。
又、60000レコードは多めだという事が記載されていました。
http://www.zabbix.jp/modules/newbb/viewtopic.php?viewmode=flat&topic_id=370&forum=5
http://www.zabbix.jp/modules/newbb/viewtopic.php?viewmode=flat&topic_id=395&forum=8
このレコード数を減らす手法で、負荷軽減が行えないか?と考えています。
行った事としては、以下の内容を試みました。
・明らかに不要と思われるアイテムを削除しアイテム数を減らした。
・5秒毎等の極めて短いタイミングで行っていた監視を、一時的に無効設定にした。
・優先度の低いサーバの監視を無効にした。エージェントサービスも停止した。
現在下記のようなアイテム数・トリガー数etcの環境になっています。
ホスト数 (有効/無効/テンプレート/削除済) 64 12 / 6 / 46
アイテム数 (有効/無効/取得不可)[トラッパー] 115 89 / 26 / 0
トリガー数 (有効/無効)[障害/不明/正常] 54 46 / 8 [0 / 0 / 46]
1秒あたりの監視項目数(ZABBIXサーバの要求パフォーマンス) 0.5522
これらの作業により、LAが毎時3.0〜5.0以上になっていた負荷が
毎時2.0〜3.0程度まで下がりましたが、削除レコード数の減少は見られませんでした。
(平常時はLA0.1〜0.8程度)
又、誤検知率は減ったものの、誤検知数は0にはなっていません。
現在は以下のようなログファイルが出力されています。
(proc.memperは独自に作成した監視です)
23964:20100929:210547 Deleted 59709 records from history and trends
23964:20100929:220647 Executing housekeeper
23964:20100929:220756 Deleted 59983 records from history and trends
23964:20100929:230856 Executing housekeeper
23964:20100929:231003 Deleted 60104 records from history and trends
23942:20100930:000043 Item [xxxxxxxx:proc.memper] error: Type of received value [2010年09月30日] is not suitable for value type [Numeric (float)]
23942:20100930:000043 Parameter [proc.memper] is not supported by agent on host [xxxxxxxx] Old status [0]
23942:20100930:001043 Parameter [proc.memper] became supported by agent on host [xxxxxxxx]
23964:20100930:001103 Executing housekeeper
23964:20100930:001213 Deleted 60109 records from history and trends
23964:20100930:011314 Executing housekeeper
23964:20100930:011417 Deleted 59786 records from history and trends
23964:20100930:021517 Executing housekeeper
23964:20100930:021624 Deleted 60106 records from history and trends
23964:20100930:031725 Executing housekeeper
23964:20100930:031830 Deleted 60093 records from history and trends
23964:20100930:041930 Executing housekeeper
23964:20100930:042042 Deleted 60093 records from history and trends
23950:20100930:051033 [Z3005] Query failed: [2006] MySQL server has gone away [select hostid from hosts where host='xxxxxxxx' and hostid between 000000000000000 and 099999999999999]
23950:20100930:051033 Database is down. Retrying in 10 seconds
23964:20100930:052142 Executing housekeeper
23964:20100930:052252 Deleted 60111 records from history and trends
23964:20100930:062352 Executing housekeeper
23964:20100930:062500 Deleted 60107 records from history and trends
こちらに関して、何かしらアドバイスが頂ければ幸いです。
又、不足情報などがありましたら、確認後追って提示します。
以上
宜しくお願いします。
TNK - 投稿数: 4731
古い情報から削除されますので、項目数を減らした時期のヒストリやイベントなどの情報が削除される時期まで負荷は軽減されないと思います。
例えば、ヒストリが7日と設定されていれば、現在ヒストリの削除処理が行われているのは7日前のデータになるはずです。
各アイテムのヒストリの設定をどのように設定されていたか存じ上げませんが、その期間が経過するまで様子を見られるか、過去の情報がもういらないアイテムに関しては、各アイテムの画面で「ヒストリを削除」ボタンを押してヒストリを削除してみてはいかがでしょうか?
kanamono - 投稿数: 5
ご回答ありがとうございます。
まだヒストリーのデータが残っている可能性が高いとの事で、
一度全てのヒストリーデータ削除を試みました。
今まで処理が長すぎて途中で止めていましたが、
今回は数時間以上かけましたが全てのヒストリーを削除しました。
その結果、現段階で以下のログ出力内容に変化しました。
13931:20101003:031803 Executing housekeeper
13931:20101003:031855 Deleted 580 records from history and trends
13931:20101003:041955 Executing housekeeper
13931:20101003:042042 Deleted 570 records from history and trends
対象レコード数が、大幅に減少された事を確認しました。
この状態で、監視項目数を増やす等をして様子を見て行きたいと思います。
助言ありがとうございました。