SNMPトラップ監視にて運用データ不明・ヒストリログなしの障害を誤検知する
いつもお世話になっております。
運用しているZabbixサーバにて下記事象が発生しており、原因がわからず困っております。
類似事象を経験された方がいらっしゃれば、ご教示の程よろしくお願いいたします。
—-
【事象】
運用データ不明、ヒストリログなしの障害アラームが発生する(頻度低)。
該当の監視機器を確認してもZabbixで検知した障害は確認できない。
【環境】
ZabbixServer:5.0.6
ZabbixProxy:5.0.6
※ ZabbixServer-Proxy構成となります
【詳細】
月1回弱ほどの低頻度ではありますが、監視機器側では発生していない障害をZabbixが検知します。
誤検知される条件は限定されており、SNMPトラップアイテムに設定したトリガーにて、
運用データが「*不明*」かつ、ヒストリログなしの障害ケースとなります。
また、このアラームは1件ではなく数件-数十件ほど同時に発生します。
異常とみられそうなログは確認した限りでは見当たりませんでしたが、
発生時間と全く同じ時間でにZabbix Proxy側のログでslow queryログが発生しており、
この事象との関連性が高いのではと疑っております。
▼ slow queryログの概要(事象発生時以外は基本出力されない)
update globalvars
update hosts
update ids
insert into proxy_history
insert into proxy_autoreg_host
TNK - 投稿数: 4753
どのような設定をされているのかわからないので、情報を提示頂け
ないのであれば、ご自身で、
・設定されているアイテムやトリガー
・システム構成
を考慮して、アイテムでどのような値が取得できているのかを再確
認して、設定と照らし合わせて確認してください。
slow queryの情報も断片的な情報しか頂けていないので、ご自身で
何の処理で問題となっているのか、データベース側で何の問題が発
生しているのかをお調べください。
あと、各サーバーの時刻同期も忘れないようにしてください。
t10 - 投稿数: 2
早速ご確認いただきありがとうございます!
詳細情報を追記させていただきます。
> 設定されているアイテム
名前:trap_all_coldstart
タイプ:snmp trap
キー:snmptrap["coldStart"]
ホストインターフェイス:IP:161
データ型:ログ
ヒストリの保存期間:7d
> 設定されているトリガー
名前:ColdStartTrap検知
深刻度:危険域
条件式:({HOST:snmptrap["coldStart"].nodata(300)}=0) and ({HOST:snmptrap["coldStart"].regexp("coldStart")}=1)
正常イベントの生成:条件式
障害イベント生成モード:単一
正常時のイベントクローズ:すべての障害
> アイテムでどのような値が取得できているのか
実際に機器で発生している際は、以下のような値が取得できております。
UDP: [HOST_IP]:58012->[Zabbix_Proxy_IP]:162 DISMAN-EVENT-MIB::sysUpTimeInstance 0:0:02:05.61 SNMPv2-MIB::snmpTrapOID.0 SNMPv2-MIB::coldStart
DISMAN-EVENT-MIB::sysUpTimeInstance 0:0:01:05.74 SNMPv2-SMI::enterprises.9.2.1.2.0 "power-on" SNMP-COMMUNITY-MIB::snmpTrapAddress.0 IP
SNMP-COMMUNITY-MIB::snmpTrapCommunity.0 "COMMNITY_NAME" SNMPv2-MIB::snmpTrapEnterprise.0 SNMPv2-MIB::snmpTraps
ただし、誤検知の場合はアイテムが値を取得しておりません。
> slow queryの情報も断片的な情報しか頂けていないので、ご自身で
> 何の処理で問題となっているのか、データベース側で何の問題が発
> 生しているのかをお調べください。
該当時間のログは下記の通りとなります。
3674:20230505:090333.214 slow query: 72.203114 sec, "update globalvars set snmp_lastsize=46540676"
3688:20230505:090333.214 slow query: 72.365896 sec, "update hosts set snmp_errors_from=1684195340,snmp_disable_until=1684195400 where hostid=22462"
3661:20230505:090333.215 slow query: 71.423144 sec, "update ids set nextid=523301 where table_name='proxy_autoreg_host' and field_name='autoreg_host_lastid'"
3672:20230505:090333.215 slow query: 72.062580 sec, "insert into proxy_history (itemid,clock,ns,value,flags,write_clock) values (2994549,1684195320,433297180,'1',0,1684195341),(3071920,1684195320,433297180,'1',0,1684195341),
< 略>
(3294280,1684195340,348901052,'0',0,1684195341),(3294231,1684195340,348901052,'601',0,1684195341);
3657:20230505:090333.215 slow query: 61.409305 sec, "insert into proxy_autoreg_host (clock,host,listen_ip,listen_dns,listen_port,tls_accepted,host_metadata,flags) values (1684195351,'HOST_NAME','10.2.114.227','HOST_NAME',10050,1,'',0)"
Zabbix Server/Proxy側のDBログやシステムログ、zabbix_server.log、zabbix_proxy.logを確認しましたが、該当時間近辺で異常なログ出力はありませんでした。
ZabbixProxy側のzabbix_agentd.logにて、active checkの失敗ログがありました。
13483:20230505:090300.754 active check configuration update from [OWN_IP:10051] started to fail (ZBX_TCP_READ() timed out)
13483:20230505:090400.765 active check configuration update from [OWN_IP:10051] is working again
> 各サーバーの時刻同期も忘れないようにしてください。
こちらNTPで同期確認済みとなります。
今回は誤検知が数件-数十件同時に出る事象となっておりますが、Zabbixが誤検知するケースは監視設定ミスなどが主なのでしょうか。類似事象少ないのであれば、Zabbix以外の部分が被疑の可能性が高くなると考えております。
よろしくお願いいたします。