Zabbixのアクションが一部のトリガーのみ突然停止する
先日、CrowdStrikeの影響で大量のイベントを検知
急激に大量のアクションが発生したからだと思うのですが、
一部のトリガーのみアクションの実行が停止してしまいました。
(同エージェントの別のトリガーのアクションは実行されています)
停止したことを示すようなZabbixサーバのログは特に出力されず、
またこうなってしまうと時間経過では直りません。
Zabbixのプロセスを再起動したところ、無事アクションが実行されるようになりました。
過去発生した大量に発生したアクションは再起動後、遅延して、そのまま実行されてました。
Zabbixのプロセス再起動するしか方法はないのでしょうか?
以下バージョンを利用しております。
zabbix Server 5.0.23
zabbix Server 5.0.30
zabbix Agnet 4.0.16
TNK - 投稿数: 4754
記載頂いた情報だけでは、どのような状態になっていたのか推測す
ることは難しいですが、古いバージョンであれば、一部のプロセス
が異常終了してしまったり、データベースへのアクセスで読み込み
待ちの状態で止まった状態になったり、不適切な処理ループに入り
込んでしまって処理を正常に行えなくなるなどの問題が発生する可
能性が高いと思われます。
上記の場合でも、何らかのログが出力されているはずなのですが、
ログやプロセスの状態、データベースへのアクセス状況などを確認
しても不明なのであれば、Zabbixサーバーのサービスの再起動を行
って正常に稼働するようになるか試してみてください。
pitou - 投稿数: 4
コメントありがとうございます。
色々調査しましたが、プロセス停止、ログへの出力など一切痕跡がなく
サーバ再起動で復旧することだけわかっております。
いつ起こるかわからないので、アクションが未実行(10分程度)の対象があれば通知する仕組みで何とか運用してます。
データベースの監視テンプレートを利用していなかったので、
Mysqlのテンプレートを利用して、MySQLのリソースを監視するようにしました。
再現した際にMysqlの状態や、ログ等を確認するようにしたいと思います。