ログ監視で3回同じ通知が出てしまう

お世話になっております。

CentOSで/var/log/secureを監視し、sshのログインを追いかけているのですが、一回のログイン通知が3回通知現象が発生しました。

実際のログインは2014/11/14 13:38ですが、
このメールが11/14 13:39、11/15 6:40、11/15 16:11に通知されています。

ZBX-8916が関係してるかとは思ったものの、agentは2.0.13、serverも2.0.13であり該当バージョンではありません。
secureログの最新データは現在取得中ですが、すでに流れてしまっており最新500個では出てこない状態です。

なにか、原因などありますでしょうか?
また、別途調べるべき所が合ったりしますでしょうか?

以上、よろしくお願いいたします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

ご提供頂けている情報が少なすぎて、様々な要因が考えられます。

アイテムの設定がおかしいかもしれませんし、トリガーの設定が
おかしいかもしれませんし、アクションで設定している内容がお
かしいことも考えられます。

ZBX-8916を気にされるということは、定期的にサーバもしくはデ
ーモンを再起動するような運用を行われているということでしょ
うか?
そうであるならば、問題を特定するには、どのような運用をされて
いるのかなども関係してくるかもしれません。

まずは、アイテム、トリガー、アクションにどのように設定されて
いるのかをお教えください。
直接的な影響は少ないかもしれませんが、利用されているCentOSの
バージョンもお教えください。

ユーザー minashiro の写真

お世話になっております。
アイテム:log[/var/log/secure]

トリガー:({HOSTNAME}のログインをsecure fileで検出しました。)
      {hostname:log[/var/log/secure].str(Accepted password)}=1

アクション:
(A) メンテナンスの状態 期間外 "メンテナンス"
(B) トリガーの値 = "障害"
(略)
(H) トリガー名 含まれる "ログイン"
(略)

ユーザーにメッセージを送信: Admin すぐに

という具合で、「secure」の中で、「Accepted password」を検出したら通知するというものです。
特別なことはしていないつもりです。

CentOSは5.9を利用しています。

ZBX-8916を気にしたのは、たまたま16日にメンテナンスを行い再起動を行った可能性があるためです。
(ただ、この時間は9時~15時なので6時のメールは説明がつきません・・・)

ユーザー TNK の写真

アクション内の件名、メッセージには何を指定していますか?

3回メールが送られたようですが、内容に違いはありませんでしたか?

ユーザー minashiro の写真

トリガーの名前は、
{HOST.NAME}のログインをsecure fileで検出しました。

にしており、アクションで"ログイン"が含まれていたら通知するという具合です。
アクションの中で、{ITEM.VALUE1}を指定していますが、3通ともまったく同じ内容でした。

結果として、ログのテキストが3回、クライアントからサーバに通知されてたのではないか?
と考えております。

ユーザー TNK の写真

必要な情報を具体的にご提示いただけないので、同じログを再読み
込みしてしまったかどうかは判別できません。
「まったく同じ内容」というのは、/var/log/secureから取得され
ているとのことですので、ログの行の、

 ・日時
 ・ログインしたユーザ名
 ・アクセス元

もすべて合致するということでしょうか?

また、{EVENT.ID}とかはメッセージ内に入れていないのですか?
入れているのであれば、イベントIDにも違いが無いかをご確認くだ
さい。

あと、何らかの手段で /var/log/secure を編集して保存してしま
ったりすると、Zabbix側で認識しているログファイルをどこまで読
み込んだかを記録している値との差異が発生して新規ファイルとみ
なしてファイルを先頭から読み込みなおす場合がありますので、ご
注意ください。

ユーザー minashiro の写真

すみません、ご指摘の通りで、 ・日時 ・ログインしたユーザ名 ・アクセス元がまったく同じです。
具体的には、以下のようなメールが上に記した時間に一字一句違わず通知されます。

あと、特にsecureの編集は行っておりません。

Trigger: xxxxxxのログインをsecure fileで検出しました。
Trigger status: PROBLEM
Trigger severity: 情報
Trigger URL:

Item values:

1. Log of /var/log/secure (xxxxxx:log[/var/log/secure]): Nov 14 13:38:28 xxxxxx sshd[14154]:
Accepted password for user名 from 192.168.0.xxxx port 58xxxx ssh2 2. *UNKNOWN*
(*UNKNOWN*:*UNKNOWN*): *UNKNOWN* 3. *UNKNOWN* (*UNKNOWN*:*UNKNOWN*): *UNKNOWN*

ユーザー TNK の写真

log[]関連は、2.0.13でもいくつかの改善が行われているので、極
力ログの再読み込みは発生しないようになっているはずです。
しかし、現時点までに頂いた情報からは、ログの再読み込みを行っ
てしまっている可能性が無いとは言い切れません。

Zabbixサーバ側、エージェント側の両方のログにもエラーが出てい
ないとすれば、やはり、先ほど書かせて頂いた/var/log/secureが
何らかの要因で編集された可能性があると考えています。

2回目3回目の通知が行われた前後に、主にZabbixサーバやエージェ
ントのログに何らかの出力が行われていないか再度ご確認ください。

ユーザー minashiro の写真

TNKさん

お世話になっております。
ありがとうございます。

ServerとAgentのログを確認してみましたが、発生時刻になにもエラーは出力されておりませんでした。
/var/log/secureのローテートもその時間には発生しておりません。
KAZさんのご指摘のバグかもしれませんので、2.2へのアップグレードを検討してみます。

ユーザー KAZ の写真

minashiroさん、TNKさん


ZBX-8916を気にしたのは、たまたま16日にメンテナンスを行い再起動を行った可能性があるためです。
(ただ、この時間は9時~15時なので6時のメールは説明がつきません・・・)

ZBX-8916ですが、これはZabbixサーバを再起動しないと絶対に発生しません。A(^^;
別件かと…

因みに、その時間帯にイベント大量に派生してたりしますか?
うる覚えですが2.0系ではイベント大量に派生すると1件しか検知していないのに複数件イベントが発生するバグが有った筈です。
ZBX-6170とかZBX-6164とかですかね…
確か複数のプロセスからエスカレーションテーブルに書込を行っていて、排他制御に問題が合ったはずです。

2.2系ではその処理を丸っと書きなおしたので発生しなくなった筈です。

ユーザー KAZ の写真

minashiroさん、TNKさん

補足ですが…

ZBX-6170とZBX-6164は解決してません。
と言うか、2.2系で処理とDB構成をガラリと変えたので、2.0ではその処理を入れられないというか…

ユーザー minashiro の写真

お世話になっております。

なるほど、こちらのバグならありそうですね。
解決策は2.2系にアップグレードしかないという具合でしょうか。
検討・提案してみます。

ありがとうございます。