ログ監視で取得できていたアイテムが突然取得できなくなる現象について
ログ監視にて、今まで取得できていたアイテムが突然取得できなくなるという事象が時々発生します。
詳細については以下の通りです。
▼事象
あるサーバで、普段は正常に取得できていた一部のアイテムの値が突然とれなくなり、
そのため、監視文字列がログに出力されてもトリガーが発動せず、メールが届かない事象が時々発生する。
そのサーバのアイテム全てが取得できなくなるわけではなく、5つ監視を行っていたとしても
他の4つでは正常に動作している(アイテムの値が取得できている)ことが多い。
尚、以下のような環境でzabbixを使用しており、
こちらの事象が発生するサーバはZabbix_Proxyにて監視を行っているのですが、
Zabbix_Proxyを再起動すると上記の現象がとりあえず解消します。
(アイテムの値が取得できるようになり監視が正常に動作する)
どなたか似たような事象、また解消する方法などご存知ないでしょうか。
監視が時々動作しないというのは、zabbixを使用する際に致命的であり困っております。
お忙しいところ申し訳ありませんが、ご意見等頂ければと思います。
よろしくお願い致します。
■環境
・OS:CentOs 5.5
・zabbixサーバ:1.8.4
・ZABBIX-JPのyumリポジトリを利用してインストールしました
・Zabbix_Server 1台 + Zabbix_Proxy 1台
■アイテム設定
==============================
タイプ:Zabbixエージェント(アクティブ)
キー:log[/tmp/aaa.log,{$APP_COMMON_LOG},{$SVR_LANG}]
データ型:ログ
更新間隔:300秒
ステータス:有効
==============================
※{$APP_COMMON_LOG}には監視文字列を、{$SVR_LANG}には文字コードを設定しております。
■トリガー設定
==============================
条件式:
{テンプレート名:log[/tmp/aaa.log,{$APP_COMMON_LOG},{$SVR_LANG}].nodata(300)}=0
&{テンプレート名:log[/tmp/aaa.log,{$APP_COMMON_LOG},{$SVR_LANG}].str(error)}=1
イベント生成:ノーマル
==============================
■アクション設定
==============================
イベントソース:トリガー
デフォルトの件名:{HOSTNAME}:{ITEM.NAME}
デフォルトのメッセージ:{EVENT.DATE} {EVENT.TIME} {HOSTNAME} {ITEM.NAME}:{ITEM.VALUE}
リカバリメッセージ:チェック無し
ステータス:有効
==============================
以上、よろしくお願い致します。
KAZ - 投稿数: 1085
Makiさん
KAZです。
取れなくなるログですが、ローテートを行っていますか?
行っている場合にはローテート方法を教えて下さい。
Maki - 投稿数: 9
KAZさん、ご返信ありがとうございます。
こちらの返信が遅くなり申し訳ありません。
取れなくなるログについてですが、ローテートを行っております。
ローテート方法は毎日行っており、朝4時に前日分をバックアップし、切り替わるように設定しております。
Maki - 投稿数: 9
すみません、上記に追記です。
ローテート方法ですが、logrotateデーモンではなく自前のスクリプトにて行っております。
スクリプトの内容としましては、gzipでログファイルを固め、元ファイルを以下コマンドで再作成しております。
echo > 対象ログ
以上です。
お忙しいところ申し訳ありませんが、ご回答お待ちしております。
kodai - 投稿数: 1341
間違っているかもしれませんが、ログを圧縮している最中に監視を行ってしまったために、Zabbixが保持している「ログをどこまで読んだか」という情報が誤った状態を記録してしまっているのかもしれません。
スクリプトでログローテートする場合は、先にログファイルをコピーしてから圧縮するようにしないとZabbixに限らず問題が出る場合があると思います。