ZabbixによるiLO監視が、Timeoutエラーとエラー復帰を繰り返す

はじめまして、trと申します。
ZabbixによるiLOのSNMP監視について、自力では解決できず、投稿させて頂きました。

(1)やろうとしていること

ZabbixのSNMP監視機能を利用して、HPE社のiLOを監視したいと考えています。

(2)問題点や現象

  1. 「監視データ→ホスト」画面の「エージェントの状態」の項目にある「SNMP」の文字が緑色と赤色を繰り返す
  2. 赤色の時は「Timeout while connecting to "iLOのIPアドレス"」と表示される
  3. zabbix_server.logの内容を確認したところ、「failed : first network error , wait for 15 seconds」が1件、「failed : another network error, wait for 15 second」が2件、その後、「enabling SNMP agent checks on host "iLOのホスト名" : host become available」が1件発生、を繰り返す
  4. アイテム「SNMP agent availability」が「1」と「0」を繰り返している
  5. その他のアイテムの値は「取得→未取得→取得」を繰り返している
  6. iLO へのpingは通ることを確認

(3)試したこと
snmpwalkコマンドにより、iLOの監視データが取得できるかを検証しています。

実行コマンド:「snmpwalk -t 30 -v 2C -c mos "iLOのIPアドレス"」

何度か試しているところ、iLOの監視データが取得できる場合と、「Timeout:No Response from "iLOのIPアドレス"」のエラーが出る場合を繰り返している状況です。

※基本情報は以下の通りです
Zabbixバージョン:5.0 LTS
iLOバージョン:iLO4 Gen9
SNMPコミュニティ:iLO側、Zabbix側ともに、「mos」に設定
テンプレート:Zabbix5.0に付属のiLO用テンプレート「Template Server HP iLO SNMP」

以上、よろしくお願いいたします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

iLOは、サーバーや専用カードによっては、処理性能が低いために、
タイムアウトが発生したり正常に値が取得できなかったりする場合
があるようです。

Zabbixのタイムアウトの設定を伸ばしたり、iLOに対する監視間隔
を伸ばすなどして、iLO側への負荷の軽減を検討されてみてはいか
がでしょうか?

ユーザー tr の写真

TNK 様

アドバイスいただきありがとうございます。

まずはアイテムの監視間隔を「15s」や「1m」から「5m」に変更して、かつ、監視アイテム数を10点程度まで減らして様子見してみます。
改善無ければzabbix_server.confのタイムアウト設定を見直ししようと思います。

ユーザー tr の写真

TNK 様

以下2点を実施し検証したところ、いずれも本症状の解決には至りませんでした。

1)Zabbix Serverのタイムアウト設定を30秒(Zabbix設定最大値)に設定
2)監視間隔を「5分」、かつ、アイテムを3つに制約

snmpwalkコマンドを用いて、iLOの監視データが取得できるかの検証を続けたところ、
取得アイテムが1つの場合は取得できる(取得に30秒程度)ようですが、取得アイテムが2つ以上になるとタイムアウトとなるようです。

ユーザー TNK の写真

複数同時に値取得ができないのであれば、そのホストのSNMPインタ
ーフェースの「bulkリクエストを使用」のチェックを外してみてく
ださい。

ユーザー tr の写真

TNK様

アドバイスありがとうございます。また、ご連絡が遅くなり申し訳ございません。

ホストのSNMPインターフェースの「bulkリクエストを使用」のチェックを外し1週間様子見してみましたが、改善は見られない模様です。

一旦、iLOのWeb監視画面に定期的にアクセスして、人手で監視するようにしようと思います。