CPU load情報の不備?

はじめて質問させていただきます。

zabbixサーバ
CentOS7
zabbix-server-mysql-3.2.11-1.el7.x86_64
zabbix-web-3.2.11-1.el7.noarch
zabbix-web-mysql-3.2.11-1.el7.noarch
zabbix-web-japanese-3.2.11-1.el7.noarch
zabbix-agent-3.2.11-1.el7.noarch

zabbixクライアント(複数)
CentOS7
zabbix-agent-3.2.11-1.el7.noarch

の構成になります。
クライアントの中で外部から多数のhttps通信を受信して
ファイルを受け取るサーバが2台あります。
2台は可用性と負荷分散のため、同じ構成、設定で均等に
https通信が振り分けられるようになっています。

この2台についてチューニングのためCPU loadが高くなるような
設定(両方とも同じ)をしていますが、
zabbixのCPU load監視警告は片方しか上がりません。
zabbixサーバのウェブ画面のグラフで見てもCPU loadの
グラフで閾値を超えているのは片方だけでした。

2台についてそれぞれログインしてtopコマンド等で負荷状態を
見るとCPU load値に差があるようには見えません。
またロードバランサ用のサーバから見るとhttps通信はほぼ
均等に振り分けられていて、警告があがるならば2台とも
あがるはずと思われます。

このような状況についてご意見を伺いたくお願いいたします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー masak の写真

Zabbix側でどのような監視設定をしていて、
結果どのようなログがでていて、
あとは記載いただいているようなことを確認したけど原因がわからない、

というような流れで記載いただいた方が回答されやすいかと思います。

ユーザー masak の写真

あ、失礼。
実際のZabbixに設定しているトリガー等の設定値の話です。

ユーザー EMI maseda の写真

回答ありがとうございます。
設定はTemplate OS Linuxを変更なしで
使用しています。
CPU loadのトリガはavg(5m)>5
になるのだと思います。

またログですがこの場合サーバ側とエージェント側の
どちらのログでしょうか。
関係する3台で/var/log/zabbix
のログファイルを見ましたがCPU loadに関係しそうな
情報が見つけられませんでした。

ユーザー TNK の写真

topコマンドで確認されたとのことですが、そのtopコマンドを実行
した時とZabbixで取得した最新の値とを比較されましたか?
メールの通知が来てからtopで確認するまでに落ち着いてしまった
ということはありませんか?

ZabbixはOSのステータス情報から情報を取得しているだけです。

同じ監視設定であるならば、監視対象のそれぞれのサーバーで設定
や環境の不一致部分があって、CPUのロードアベレージだけを見た
らバランスが取れていないのでしょう。

どのようなプロセスがどのような負荷で稼働している状態なのかを
ロードアベレージが高くなっているときに確認してください。

ユーザー EMI maseda の写真

回答ありがとうございます。
実はメールを受けてからtopを実行するという感じではなく
メールは(ひっきりなしに)ProblemとOKが片方のみの
通知で届くので、両方のエージェントにログインして
しばらくtopを動かしっぱなしにすることがありました。
この2台はnginxとphp-fpmでhttps通信を受けていて
topではロードアベレージが高い時はphp-fpmの
アクティブプロセスが多数存在し、CPU loadは
両方とも頻繁に10を超えるという状態でした。

あと、監視対象のサーバはVMwareの
ゲストなのですが、同一のスペック(CPU、メモリ、ストレージ)
で作成し、同一の手順書で同じ設定(違うのはIPアドレスくらい)
なので、設定や環境の不一致はないと思っています。
それゆえに今回の質問をさせていただきました。

ユーザー TNK の写真

アイテムの設定とトリガーの条件式を確認してください。
デフォルトのTemplate OS Linuxをそのまま使用しているのであれ
ば、アイテムの値の取得間隔は1分間で、トリガーとしては5分間の
平均値での判断となっているはずです。

EMI masedaさんが使用されている環境の一方がたまたまその閾値ギ
リギリの状態となっているだけなのではないでしょうか。
2台のアイテムの最新データを時系列で確認してみてください。

大幅に差異があるのであれば、アクセス数なども比較してみてはい
かがでしょうか?
本当に負荷分散は均一になされていますか?

デフォルトで用意されているテンプレートはあくまでもサンプルで
す。運用上問題が無いのであれば、閾値を見直してはいかがでしょ
うか?
EMI masedaさんの環境に合わせた調整を行ってください。