Response time is too high on <サーバー名> が特定の時刻帯のみに発生する場合、どういう点に注目すればよろしいのでしょうか?

テンプレートTemplate ICMP Pingを適応している遠隔監視中のとあるサーバー2台について、最近Zabbixよりそのうちの1台のみ「Response time is too high on <サーバー名>」というアラートメールが21時前後に多く届いてきているのに気が付きました。

サーバーの反応が悪いからResponse timeが悪くなっているのではないか?と推測したのですがと推測したのですが、該当サーバーは予備サーバーで通常時は何もやっていないので、該当時刻帯もCPU負荷など低く原因が分かりません。

ネットワーク環境が悪くなってResponse timeが低下したのかと考えると、そういえばもう一台の方もアラートメールは来ないもののResponse timeが似た時間帯で悪いので、可能性はあり得ると考えました。

しかしながらここから先何に注目して改善につなげればいいのかわからないので質問したい次第です。
アバウトな質問で恐縮ですが、ご存知の方よろしくお願い致します。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー lilith relic の写真

標準テンプレートのicmppingsecでしょうか。

現在の状況や、何を改善&解決したいのが判らないので一般論で。

①サーバーのレスポンスが遅くて耐えれない場合
・レスポンスが悪化する原因で内部的な物であれば、
 同一時間帯に現地で流れるパケットを(wiresharkなどで)監視する。
・外部的(VPNやNW機器)なものであればスループット確認をし制限が無いか確認とかでしょうか?

②サーバーのレスポンスが許容出来る範囲
・テンプレートのトリガーの閾値をあげて、反応しないようにする。

とかでしょうか。

ユーザー karna の写真

特定の時間帯にシンプルチェックのレスポンスが低下しているとのことなので、zabbixサーバーと対象ホスト間のスイッチのレスポンスが低下していると思われます。

たとえば、定期バックアップやバッチ処理等で、帯域を占有してしまっているとか、スイッチの負荷が高まっているとか。
経路上のスイッチのIOやCPU負荷をとってみると何かわかるかもしれません。

ユーザー arc-friends の写真

lilith relicさん、karna さん
ご返答ありがとうございます!

> ①サーバーのレスポンスが遅くて耐えれない場合

現在zabbixのデフォルト値(150ms以内)を使用しているのですが、239msで警告を出している状態なので、体感としては問題を感じていない状態です。
(ですので先方に調査したいとは切り出しづらい)

その上でwiresharkは参考にさせていただきます。
なお、外部的(VPNやNW機器)な可能性について。
NW機器については、2台はすぐ上のハブについて同じものを用いています。
ですので、ハブの口が異常でない限りは問題ないはずです。
VPNはOpenVPNを用いていますが、2台とも親については共通のサーバーを用いてるので、可能性は低いと考えます。
なお場所的には2台同じネットワーク環境内においてすぐ隣に設置しています。

> ②サーバーのレスポンスが許容出来る範囲

すっきりしないのですが、現状体感的には問題ないだけに相談します。

> 定期バックアップやバッチ処理等

同時間帯において該当処理の心当たりはないです。

> 帯域を占有してしまっている

心当たりはない(問題のサーバーは予備サーバー)のですが、何か見知らぬものが動作していないか、wireshark等でまた調べさせていただきます。

ユーザー arc-friends の写真

> 心当たりはない(問題のサーバーは予備サーバー)のですが、何か見知らぬものが動作していないか

その前に Network traffic を調べてみましたが、同警告が出ないサーバーと比較して、常時、量が1/2以下なので、予想としては「何か見知らぬものが動作」の可能性は低い気がします。

ちなみにどちらも同時期に購入した同スペックのサーバーです。