RTX1210のZabbix監視が途切れる

9月当初からRTX1210をZabbixで監視しております。
当初はSNMPで上手く監視出来ておりましたが、数日経つとグラフの値が途切れ途切れになるようになりました。
ZabbixServerのログを確認したところ下記エラーが表示されておりました。
2683:20200914:132836.055 enabling SNMP agent checks on host "RTX1210": host became available
2683:20200914:132906.087 SNMP agent item "yrhMemorySize" on host "RTX1210" failed: first network error, wait for 15 seconds
2685:20200914:132921.215 resuming SNMP agent checks on host "RTX1210": connection restored
2685:20200914:132951.227 SNMP agent item "yrhMemorySize" on host "RTX1210" failed: first network error, wait for 15 seconds
2680:20200914:133036.096 resuming SNMP agent checks on host "RTX1210": connection restored
2683:20200914:133036.182 SNMP agent item "yrhMemorySize" on host "RTX1210" failed: first network error, wait for 15 seconds
2680:20200914:133121.202 resuming SNMP agent checks on host "RTX1210": connection restored
2685:20200914:133121.421 SNMP agent item "yrhMemorySize" on host "RTX1210" failed: first network error, wait for 15 seconds
2684:20200914:133136.375 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: another network error, wait for 15 seconds
2680:20200914:133151.238 SNMP agent item "yrhInboxTemperature" on host "RTX1210" failed: another network error, wait for 15 seconds
2681:20200914:133206.049 resuming SNMP agent checks on host "RTX1210": connection restored
2683:20200914:133206.295 SNMP agent item "yrhMemorySize" on host "RTX1210" failed: first network error, wait for 15 seconds
2702:20200914:133221.092 resuming SNMP agent checks on host "RTX1210": connection restored
2681:20200914:133236.072 SNMP agent item "yrhInboxTemperature" on host "RTX1210" failed: first network error, wait for 15 seconds
2702:20200914:133251.116 SNMP agent item "yrhMemorySize" on host "RTX1210" failed: another network error, wait for 15 seconds
2702:20200914:133306.145 resuming SNMP agent checks on host "RTX1210": connection restored
2702:20200914:133336.176 SNMP agent item "yrhMemorySize" on host "RTX1210" failed: first network error, wait for 15 seconds
2701:20200914:133421.093 temporarily disabling SNMP agent checks on host "RTX1210": host unavailable

上記エラーの解決にご協力頂けないでしょうか。
よろしくお願いいたします。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

使用されているZabbixのバージョンが分かりませんが、タイムアウ
トはどのくらいの時間を設定していますか?
デフォルトだと3秒でタイムアウトしてしまうので、ネットワーク
機器からのレスポンスが遅れると値が取得できない状態が発生しま
す。

タイムアウトの設定をされていないのであれば、少し長めに設定し
てみてください。

ユーザー yami_0613 の写真

コメントありがとうございます。
Zabbixバージョンは4.4.10です。
また、タイムアウト値は30秒です。
それでも上記エラーとなります。

ユーザー TNK の写真

RTXのCPU負荷やメモリ使用状況はいかがですか?

ネットワーク機器のCPUはスイッチングには十分であってもSNMPの
大量アクセスをさばけるほどの余裕がない場合があるので、負荷が
高いようであれば、アイテムの更新間隔を伸ばすなど、負荷を下げ
るような工夫が必要かもしれません。

ユーザー Yasumi の写真

途切れ途切れでアイテム情報を収集する事象は経験がありますね。
たぶんですが、RTX1210の"yrhMemorySize"と"yrhInboxTemperature"だけ、
時々SNMPのカウンタ値に異常が起きていると思います。

Zabbixが正常にデータ格納できるSNMPのカウンタ値になっていないと、
Zabbixでは取得不能になりますので、特定ホストの特定アイテムだけ途切れ途切れになる理由を説明できます。
一度SNMPのカウンタ値を定点観測してみてはどうでしょうか。

他にも確認点はいくつかあると思います。

<対象機器側の確認>
・RTX1210のCPU/Memoryの負荷率はどの程度か
・極端な通信負荷が定期的に起きていないか

<Zabbixの確認>
・"yrhMemorySize"と"yrhInboxTemperature"のアイテム取得間隔はいくつか
・ZabbixのCPU/Memoryの負荷率はどの程度か
・Zabbixのデータ収集プロセスの負荷率はどの程度か(※1秒間あたりのパフォーマンスは?)
・DBの状態は正常か

ユーザー yami_0613 の写真

皆様コメントありがとうございます。
SNMP agent item "yrhMemorySize" on host "RTX1210" failed: first network error, wait for 15 seconds
上記のエラーはSNMPv1になっていたり、コミュニティ名が間違っていたが原因でしばらくしてエラーが出力が止まりました。
ただ、グラフ描画が途切れ途切れになる事象は解決しておりません。
またRTXとZabbixのCPU/メモリの使用率ですが、下記のとおりあまり高くはないです。
・RTX
 CPU:10%~20%
 メモリ:20%
・Zabbix
 CPU:グラフの描画が地面スレスレでほとんど使っていない。
 メモリ:250MBほど

現在CPUやインタフェースの値が途切れ途切れになっており
インタフェースの取得間隔は60秒です。

ユーザー yami_0613 の写真

ひとまず短い時間ですが途切れ途切れは無くなりました。
下記ログの「rtx.if.discovery」がアイテムに無いのに出力されるのは何故なのか。
[root@localhost ~]# tailf /var/log/zabbix/zabbix_server.log
82535:20200916:161704.125 resuming SNMP agent checks on host "RTX1210": connection restored
82534:20200916:161719.548 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82529:20200916:161734.394 resuming SNMP agent checks on host "RTX1210": connection restored
82535:20200916:162004.269 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82535:20200916:162019.340 resuming SNMP agent checks on host "RTX1210": connection restored
82530:20200916:162104.170 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82534:20200916:162119.086 resuming SNMP agent checks on host "RTX1210": connection restored
82535:20200916:162319.483 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82529:20200916:162334.125 resuming SNMP agent checks on host "RTX1210": connection restored
82534:20200916:162419.208 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82534:20200916:162504.254 resuming SNMP agent checks on host "RTX1210": connection restored
82529:20200916:162634.264 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82530:20200916:162719.061 resuming SNMP agent checks on host "RTX1210": connection restored
82526:20200916:162734.542 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82527:20200916:162749.246 resuming SNMP agent checks on host "RTX1210": connection restored
82535:20200916:162949.107 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82531:20200916:163004.093 resuming SNMP agent checks on host "RTX1210": connection restored
82527:20200916:163049.412 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82526:20200916:163134.050 resuming SNMP agent checks on host "RTX1210": connection restored
82531:20200916:163304.204 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82529:20200916:163319.110 resuming SNMP agent checks on host "RTX1210": connection restored
82534:20200916:163404.266 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82531:20200916:163449.397 resuming SNMP agent checks on host "RTX1210": connection restored
82529:20200916:163619.231 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82532:20200916:163634.030 resuming SNMP agent checks on host "RTX1210": connection restored
82534:20200916:163719.396 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82533:20200916:163804.211 resuming SNMP agent checks on host "RTX1210": connection restored
82532:20200916:163934.150 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82531:20200916:164019.113 resuming SNMP agent checks on host "RTX1210": connection restored
82528:20200916:164034.346 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82528:20200916:164119.437 resuming SNMP agent checks on host "RTX1210": connection restored
82532:20200916:164249.294 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82533:20200916:164334.024 resuming SNMP agent checks on host "RTX1210": connection restored
82531:20200916:164349.354 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds

ユーザー yami_0613 の写真

途切れ途切れが再発しました。
18時3分~10分前まで途切れていました。
原因が分かりません。。。
82533:20200916:180234.060 resuming SNMP agent checks on host "RTX1210": connection restored
82527:20200916:180349.386 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82453:20200916:180351.498 executing housekeeper
82453:20200916:180351.728 housekeeper [deleted 23894 hist/trends, 0 items/triggers, 0 events, 0 problems, 0 sessions, 0 alarms, 0 audit, 0 records in 0.227978 sec, idle for 1 hour(s)]
82529:20200916:180434.289 resuming SNMP agent checks on host "RTX1210": connection restored
82533:20200916:180534.217 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82532:20200916:180619.173 resuming SNMP agent checks on host "RTX1210": connection restored
82528:20200916:180704.216 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82532:20200916:180749.314 resuming SNMP agent checks on host "RTX1210": connection restored
82530:20200916:180849.271 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82531:20200916:180904.036 resuming SNMP agent checks on host "RTX1210": connection restored
82526:20200916:181019.190 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82529:20200916:181034.108 resuming SNMP agent checks on host "RTX1210": connection restored
82531:20200916:181204.153 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82533:20200916:181219.118 resuming SNMP agent checks on host "RTX1210": connection restored
82529:20200916:181334.259 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82528:20200916:181419.099 resuming SNMP agent checks on host "RTX1210": connection restored
82533:20200916:181519.269 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82526:20200916:181604.041 resuming SNMP agent checks on host "RTX1210": connection restored
82530:20200916:181649.144 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82526:20200916:181704.229 resuming SNMP agent checks on host "RTX1210": connection restored
82528:20200916:181834.335 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82531:20200916:181919.075 resuming SNMP agent checks on host "RTX1210": connection restored
82526:20200916:182004.372 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82532:20200916:182019.152 resuming SNMP agent checks on host "RTX1210": connection restored
82529:20200916:182149.158 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82534:20200916:182234.034 resuming SNMP agent checks on host "RTX1210": connection restored
82532:20200916:182319.285 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82530:20200916:182334.098 resuming SNMP agent checks on host "RTX1210": connection restored
82533:20200916:182504.284 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82531:20200916:182549.029 resuming SNMP agent checks on host "RTX1210": connection restored
82530:20200916:182634.225 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82531:20200916:182719.168 resuming SNMP agent checks on host "RTX1210": connection restored
82535:20200916:182819.171 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82529:20200916:182904.056 resuming SNMP agent checks on host "RTX1210": connection restored
82526:20200916:182949.411 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82529:20200916:183004.181 resuming SNMP agent checks on host "RTX1210": connection restored
82535:20200916:183134.289 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82528:20200916:183219.135 resuming SNMP agent checks on host "RTX1210": connection restored
82529:20200916:183304.364 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82531:20200916:183349.028 resuming SNMP agent checks on host "RTX1210": connection restored
82534:20200916:183449.375 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82528:20200916:183534.455 resuming SNMP agent checks on host "RTX1210": connection restored
82530:20200916:183619.291 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82532:20200916:183634.034 resuming SNMP agent checks on host "RTX1210": connection restored
82531:20200916:183804.220 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82527:20200916:183849.110 resuming SNMP agent checks on host "RTX1210": connection restored
82532:20200916:183934.160 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82527:20200916:184019.255 resuming SNMP agent checks on host "RTX1210": connection restored
82529:20200916:184119.190 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82530:20200916:184134.096 resuming SNMP agent checks on host "RTX1210": connection restored
82534:20200916:184249.232 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82534:20200916:184304.276 resuming SNMP agent checks on host "RTX1210": connection restored
82530:20200916:184434.200 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82531:20200916:184519.103 resuming SNMP agent checks on host "RTX1210": connection restored
82534:20200916:184604.403 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82533:20200916:184649.250 resuming SNMP agent checks on host "RTX1210": connection restored
82535:20200916:184749.145 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82528:20200916:184804.094 resuming SNMP agent checks on host "RTX1210": connection restored
82532:20200916:184919.134 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82526:20200916:185004.084 resuming SNMP agent checks on host "RTX1210": connection restored
82528:20200916:185104.236 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82534:20200916:185149.115 resuming SNMP agent checks on host "RTX1210": connection restored
82532:20200916:185234.318 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82531:20200916:185249.108 resuming SNMP agent checks on host "RTX1210": connection restored
82530:20200916:185419.236 SNMP agent item "rtx.pp.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
82535:20200916:185434.057 resuming SNMP agent checks on host "RTX1210": connection restored
82531:20200916:185549.278 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds

ユーザー Yasumi の写真

「rtx.if.discovery」がアイテムに無いとありますが、ディスカバリの中に入っていると思います。

ユーザー yami_0613 の写真

コメントアウトありがとうございます。
ディスカバリの中にありました。
こちらが見つからないというエラーが出ておりそれがグラフの値が途切れる原因の可能性はありますでしょうか?

ユーザー yami_0613 の写真

コメントアウトありがとうございます。
ディスカバリの中にありました。
こちらが見つからないというエラーが出ておりそれがグラフの値が途切れる原因の可能性はありますでしょうか?

ユーザー Yasumi の写真

グラフが途切れるとは具体的にどのアイテムのことを差しているのでしょうか。
あるアイテムの動作が別のアイテムのグラフ描画に影響を与えるというのは通常起こりえません。

対象アイテムのグラフもそうですが、「最新の値」に情報が格納されているか確認してください。

ユーザー yami_0613 の写真

現在値が途切れる事象が起きているのはインタフェースのIN/OUTです。
なので下記エラーに関わっているのかと思っています。
82531:20200916:185549.278 SNMP agent item "rtx.if.discovery" on host "RTX1210" failed: first network error, wait for 15 seconds
当方としてはディスカバリでインタフェースを見つけてくれなくて良いのですが、テンプレートにディスカバリが組み込まれており、そのキーが正常に動作していないためインタフェースの値が途切れる事に繋がっていると考えています。

ユーザー Yasumi の写真

であれば、ディスカバリの設定を無効にすればよいと思います。

ユーザー TNK の写真

ネットワークのIn/Outとのことですが、そのアイテムの詳細な設定
を見せて頂くことはできないでしょうか?

例えば、アイテムで使用しているOIDが32bitカウンタである場合、
高速なネットワークだと短時間でカウンタのオーバーフローが発生
してしまうので、Zabbixで差分を計算してbpsを求めているのです
が、オーバーフローが発生してしまうと差分の取得ができず、継続
して値取得することができません。

32bitカウンタであるのは、

 IF-MIB::ifInOctet (.1.3.6.1.2.1.2.2.1.10.x)
 IF-MIB::ifOutOctets (.1.3.6.1.2.1.2.2.1.16.x)

です。もしも、このOIDを使用している場合は、機器が対応してい
るかの確認が必要ですが、64bitカウンタの

 IF-MIB::ifHCInOctets (.1.3.6.1.2.1.31.1.1.1.6.x)
 IF-MIB::ifHCOutOctets (.1.3.6.1.2.1.31.1.1.1.10.x)

に置き換えることで、より長時間の値取得が可能になるはずです。

snmpgetやsnmpwalkなどのコマンドを使用してその機器から値を取
得できるかを確認してみてください。

ユーザー yami_0613 の写真

Yasumi様の仰る通りディスカバリを削除すればいまのとろ途切れは無くなりました。

TNK様下記結果となりました。
 IF-MIB::ifHCInOctets (.1.3.6.1.2.1.31.1.1.1.6.x)
 IF-MIB::ifHCOutOctets (.1.3.6.1.2.1.31.1.1.1.10.x)

IF-MIB::ifHCInOctets.1 = No Such Object available on this agent at this OID
IF-MIB::ifHCOutOctets.1 = No Such Object available on this agent at this OID

ユーザー TNK の写真

アイテムの設定がどうなっていたのかわかりませんが、私があげた
OIDを使用しているアイテムであった場合、オーバーフローするこ
とによって、その時のアイテムの値が取得できなくなることが発生
する可能性があるということを知っておいていただければと思いま
す。

そして、その対応のために64bitカウンタには切り替えられない機
器であるということですね。

ユーザー yami_0613 の写真

TNK様
いただいた32ビット版のOIDでなら値を取れましたが64ビット版は取れませんでした。
また、アイテムの設定は32ビットOIDです。
さらにRTX1210は現在64ビットカウンタに対応してないそうです。
なのでオーバーフローした場合は途切れるのは仕方がないです。
ちなみにオーバーフローはネットワーク過多以外にCPUやメモリの高負荷でも起きるのでしょうか?
ご存じでしたらご教示ください。

ユーザー TNK の写真

ちなみにオーバーフローはネットワーク過多以外にCPUやメモリの高負荷でも起きるのでしょうか?

OSやファームウェアにバグが無ければ発生しないと思います。

ユーザー yami_0613 の写真

TNK様ご回答ありがとうございます。

ユーザー Yasumi の写真

一応ですが、同様の内容について過去に質問があります。
http://www.zabbix.jp/node/624

ユーザー yami_0613 の写真

機種は違いますがまさにこの内容と一致しています。
当方は監視間隔は元から60Sでした。
そのため原因の一つはディスカバリが動作していた件だと思います。
調査していただきありがとうございます。