アクション実行エラーにつきまして
お世話になっております。
以下問題が発生し、解決策がわからないためご協力いただければと思います。
=======================================================================
■前提
Zabbixサーバで検知した障害メッセージをアクションでスクリプトを実行し、
上位監視サーバへ転送している。
===============
zabbix 4.4.8
OS RHEL7.6
===============
■発生している問題
とあるサーバにて3分で3000件を超えるログ監視による障害メッセージを検知。
うち、アクションでエラーが7件発生、上位監視サーバへメッセージを転送できず。
■実現したいこと
上位監視サーバへのメッセージ転送エラーをなくしたい。
■エラーメッセージ
Get value from agent failed:ZBX_TCP_READ() timed out
=======================================================================
上記エラーメッセージが発生した原因として、zabbix_server.confの「Timeout」が
原因があるのではないかと当たりをつけたのですが、下記記事によるとポーリング系のタイムアウトとのことで、
アクション実行のタイムアウト設定ではなさそうでした。
https://unam.hatenadiary.jp/entry/2018/01/27/193310
また、マニュアルを確認したのですが、アクション実行タイムアウトに関する設定を見つけられませんでした。
https://www.zabbix.com/documentation/4.4/en/manual/appendix/config/zabbi...
今回発生した問題の回避策をご存じの方がいらっしゃれば、ご教示いただけますでしょうか。
以上、よろしくお願いいたします。
TNK - 投稿数: 4720
アクションをZabbixエージェントを経由して、リモートコマンドで
スクリプトを実行しているということでよろしいでしょうか?
そのサーバーの負荷状況は確認されましたか?
ZabbixエージェントやOS自体のログなどで、何か出力されていなか
ったかもご確認ください。
ama - 投稿数: 76
TNK様
ご返信ありがとうございます。
確認事項につきましては、以下の通りとなります。
> アクションをZabbixエージェントを経由して、リモートコマンドで
> スクリプトを実行しているということでよろしいでしょうか?
⇒上記の通りです。
> そのサーバーの負荷状況は確認されましたか?
> ZabbixエージェントやOS自体のログなどで、何か出力されていなか
> ったかもご確認ください。
⇒CPU使用率は通常2%程度ですが、該当の時間は30%を超えておりました。
メモリ使用率は恒常的に90~95%と高く、該当の時間も95%になっておりました。
また、ZabbixエージェントおよびOSのシスログには何も出力されていませんでした。
以上、よろしくお願いいたします。