host unavailableがログに出力されるまでに時間がかかる
[環境]
RHEL 7.3
Zabbix 3.0
お世話になっております。
agent.pingアイテムを使用してzabbixエージェントの死活監視を行っています。
エージェントが異常終了した時、開発環境では「Zabbix agent item "agent.ping" on host "XXXXXXXX" failed: first network error, wait for 15 seconds」のログのあとすぐに「temporarily disabling Zabbix agent checks on host "XXXXXXXX": host unavailable」が出力されています。
しかし、本番環境では「first network error」のログが出力されたあと、「host unavailable」が出力されるまで約24分ほどかかっています。
両環境でアイテムやトリガー、zabbix_server.confなど、設定に差異はありません。
「host unavailable」のメッセージ受信をエージェントのダウン検知のトリガーにしているため、本番環境でも開発環境と同じように2つのログを同時に出力させたいと思っています。
原因や対処法を教えていただけないでしょうか。
よろしくお願いいたします。
TNK - 投稿数: 4729
質問される際には、Zabbix 3.0ではなく、詳細なバージョンまで教
えてください。
あと、Zabbixサーバー用のテンプレートを使用して、各プロセスの
busy率やキューの状態、ログに出力されているメッセージなども再
度ご確認ください。
設定に違いは無いとのとこですが、登録されているホストの数や1
秒あたりの監視項目数も同程度で、同じスペックのサーバーを使用
しているのですか?
環境や使用状況なども合わせて違いが無いかの確認をお願いします。
nomi0425 - 投稿数: 9
回答有り難うございます。
Zabbixの詳細なバージョンは3.0.28です。
開発環境と本番環境のスペックは同等で、CPU4コアのメモリ8GBです。
登録ホスト数は開発が190(内有効ホスト 68)、 本番が200(内有効ホスト 75)、
1秒あたりの監視項目数は開発が5.33、本番が7.13です。
また、当該事象が確認される10日ほど前より本番環境で「Zabbix busy unreachable poller processes, in %」が100%となっておりました。
この数日、開発環境でも同じメッセージが出るようになりましたが、当該事象は確認されていません。
StartUnreachablePollersやTimeoutの値を増やすことで、当該事象は解消するでしょうか?
よろしくお願いいたします。
fripper - 投稿数: 495
Zabbix Server にて、インターナルアイテム型のデータ収集を設定して
サーバモジュールの各設定パラメータについて、状況を確認してみることをおすすめします
https://www.zabbix.com/documentation/3.0/manual/config/items/itemtypes/internal
各プロセスの数が足りているか、キャッシュ設定は足りているか、等を判断する際に
かなり有用なデータが収集できるかと思います
いくつかの監視対象ホストが夜間バッチを処理する時間帯だけ
ネットワークトラフィックが増えていることに起因して、
結果的に、Pollerに対する応答が遅くなっていて、普段の監視処理だと十分に足りていると
思い込んでいた設定が不十分だった‥
とか
普段のNVPS・監視項目数からは十分足りているはずのキャッシュが
監視対象のログのバースト発生に起因して、瞬間的にZabbix Server側のDB書込が
間に合わなくなってしまい、受信ログデータによってキャッシュがあふれてしまっている‥
といったようなパターン
監視対象側である程度の異常が発生しても、耐えきれる程度の余力をサーバ側で確保しておくと
安定した監視ができるかと思います
nomi0425 - 投稿数: 9
回答ありがとうございます。
ご提示いただいたデータを収集してみたいと思います。