IPMI監視によるサーバ温度監視について

お世話になります。
いつもこちらのフォーラムを参考させていただいております。

サーバの温度状態を検知したく以下の通りIPMI監視を設定したのですが、
想定通りの動きとならず、相談させていただきたく。

□Zabbix
OS:RedHat Enterprise Linux 6.2
Zabbix Ver:2.0.5

□以下インストール済
OpenIPMI-libs-2.0.16-12.el6.x86_64
OpenIPMI-2.0.16-12.el6.x86_64

□zabbix_server.confの記述
StartIPMIPollers=10

--------------------------------------------------------------------------
・Zabbixサーバ側から以下コマンドにて監視対象のセンサー名を特定。(抜粋)
# ipmitool -I lanplus -H {IPAddress} -U {User} -P {Pass} sensor list
Baseboard Temp#0 | 23.000
Baseboard Temp#1 | 23.000
BB Rear Temp#0 | 38.000
BB Rear Temp#1 | 39.000

・使用可能アルゴリズムを特定
# ipmitool -I lanplus -H {IPAddress} -U {User} -P {Pass} lan print
Auth Type Support : NONE MD2 MD5 PASSWORD OEM
Auth Type Enable : Callback : NONE MD2 MD5 PASSWORD OEM
: User : NONE MD2 MD5 PASSWORD OEM
: Operator : NONE MD2 MD5 PASSWORD OEM
: Admin : NONE MD2 MD5 PASSWORD OEM
: OEM :

・Zabbixの設定画面からホストのIPMIタブからアルゴリズム「MD5」、
 特権レベルに「Admin」を指定。
・アイテムにて特定したセンサーを登録
--------------------------------------------------------------------------

上記設定にてアイテムを開始したのですが、以下現象が発生しました。

①Baseboard Temp#1、BB Rear Temp#1の値が収集されない
 # アイテムはエラーとならず、最新データでは[未監視]表示

②Baseboard Temp#0、BB Rear Temp#0の値は収集されるが指定した
 監視間隔[600秒]毎ではなく不安定な状態
 # 次収集が20分や30分後、またはIPMIアイコンがエラー表示となる

以上2点の原因についてご教授いただきたく。
宜しくお願い致します。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー KAZ の写真

sskさん

下記、2.0系ではなく2.2系のマニュアルになりますが、「IPMIの個別センサーに関する注意事項」の項目があります。
https://www.zabbix.com/documentation/2.2/jp/manual/config/items/itemtype...

確認してみてください。

ユーザー ssk の写真

KAZさん

ご返信有難う御座います。

リンクの「OpenIPMI-2.0.16、 2.0.17、2.0.18および2.0.19中の個別センサー名についての注意事項」を確認したところ
「IPMIエージェントアイテムの[IPMIセンサー]フィールド中で、「0」で終わるセンサー名を使用します」との記載が
ありました。「~#1」については収集不要だったのですね。。
# ipmitoolコマンドで表示したセンサーは全て#0,#1の1対で表示されていたので疑問には思っていたのですが。。。

ユーザー TNK の写真

KAZさんから紹介頂いたリンク先の情報をご確認頂いて、それ以外
で確認させて頂きたい項目をあげさせて頂きます。

具体的にアイテムとしてどのように設定されているのでしょうか?

あと、IPMIを利用して監視しようととしている監視対象のホストの
数やアイテムの数はどの程度でしょうか?
StartIPMIPollersは10に設定されているようですが、それによって
起動されたipmi pollerプロセスのbusy率はどの程度になっていま
すか?
アイテムがキューに溜まってしまっていませんか?

もう一つ、Zabbixサーバのログは確認されましたか?
タイムアウトは発生していませんか?

ipmi pollerプロセスのbusy率が高いようであれば、プロセス数を
もう少し増加させた方が良いかもしれません。
タイムアウトが発生しているようであれば、zabbix_server.conf内
のTimeoutの値を伸ばしてデーモンを再起動して確認してみてくだ
さい。

ご参考:
 Zabbix2.0.4でIPMIアイテムを収集する。
  http://blog.livedoor.jp/qryuu/archives/52019625.html

ユーザー ssk の写真

TNKさん

ご返信有難う御座います。

□アイテムの設定
タイプ:IPMIエージェント
キー:BB_Rear_Temp
ホストインターフェース:IPMI用アドレス:623
IPMIセンサー:BB Rear Temp#0
データ型:数値(整数)
更新間隔:600秒

IPMI監視の対象ホスト/アイテム数は、
現在は1ホストにて2アイテム(Baseboard Temp#0,BB Rear Temp#0)のみ有効化しています。
# ただ、この検証を終えた後に約20ホストへ同2アイテムを追加する予定です。

ipmi pollerプロセスのbusy率は
監視を仕掛けていませんでしたので先ほど追加致しました。

キューについては滞留していたため、
StartIPMIPollersの値を20へ修正して様子を見ていましたが、
busy率は高いときでも10%程でしたがキューの滞留は解消しませんでした。

zabbix_server.logについては他にも大量にサーバを監視していることもあり、
ログが大量に吐かれており確認はできませんでした。

タイムアウトの発生を確認できていませんが、キューの滞留を解消する方法としては
StartIPMIPollers値とTimeout値を増やせばよろしいのでしょうか。

# IPMIの設定は参考URLを参照しておりました

ユーザー ssk の写真

お疲れ様です。

timeout値を3から30へと変更しましたが特段変化はありませんでした。

また、busy率の確認対象が見誤っており、以下のアイテムキーが設定前はほぼ0%でしたが、
設定後は常に50~80%を推移しておりました。
□zabbix[process,unreachable poller,avg,busy]

また、別環境にて同様の設定を行い、デバッグレベルを4として様子をみていたところ以下のログが確認できました。
# ホスト名は伏せております

4919:20141010:130737.105 In get_value_ipmi() key:'hostname:Baseboard_Temp'
4916:20141010:130738.107 In get_value_ipmi() key:'hostname:BB_Rear_Temp'
4916:20141010:130745.122 Item [hostname:BB_Rear_Temp] error: error 0x10000c3 while reading threshold sensor
4916:20141010:130745.124 IPMI item [BB_Rear_Temp] on host [hostname] failed: first network error, wait for 15 seconds
4876:20141010:130800.492 In get_value_ipmi() key:'hostname:BB_Rear_Temp'
4876:20141010:130807.498 Item [hostname:BB_Rear_Temp] error: error 0x10000c3 while reading threshold sensor
4876:20141010:130807.501 IPMI item [BB_Rear_Temp] on host [hostname] failed: another network error, wait for 15 seconds
4876:20141010:130822.523 In get_value_ipmi() key:'hostname:BB_Rear_Temp'
4876:20141010:130822.538 Item [hostname:BB_Rear_Temp] error: error 0x16 while reading threshold sensor
4876:20141010:130822.538 IPMI item [BB_Rear_Temp] on host [hostname] failed: another network error, wait for 15 seconds

これらの情報からわかることはどのようなことでしょうか。

ユーザー ssk の写真

ちなみに以下コマンドを打ち、全てのセンサー情報が表示されプロンプトが返って来るまで約1分以上かかっています。
# ipmitool -I lanplus -H {IPAddress} -U {User} -P {Pass} sensor list

Zabbixから対象のセンサーの値を取得する際も同様のコマンドで値を拾っているのでしょうか

ユーザー TNK の写真

Timeoutの値を30に伸ばされたようですが、ログを拝見する限り、
それでもタイムアウトが発生しているように見受けられます。

あと、Zabbixからはipmitoolコマンド自体を呼び出しているわけで
はなかったと思いますが、同じライブラリを利用して値を取得して
いたと思います。

Zabbixから値を取得する際に、30秒以上時間がかかるようなものは、
直接監視することができません。

cronとipmitoolコマンドなどを利用して、定期的に値を取得してフ
ァイルに出力し、Zabbixからはそのファイルを監視するような構成
をご検討ください。

ユーザー KAZ の写真

sskさん

TNKさんが書いている通り、ipmitoolコマンを呼び出しているわけではありませんが、同じOpenIPMIのライブラリを利用しています。

認証方式がMD5ということですが、RMCP+は使えますか?
MD5がIPMI1.5、RMCP+がIPMI2.0での接続となります。

ユーザー ssk の写真

TNKさん
KAZさん

ご返信ありがとうございます。。

同じipmiのライブラリということでしたら、
同様に値の取得に時間がかかりすぎてしまっている
のかもしれませんね。

認証方式にRMCP+を設定してみましたが、
値は取得できるものの動作やログに変わりはありませんでした。

ipmitoolコマンド結果の出力と、出力ファイルの監視にて検討してみます。

どうも有難う御座いました。