ディスク空き容量とシンプルチェックによるポート監視の状態誤検出について

【内容】
ディスクの空き容量が10%を切ったと通知メールが届きました。
グラフで確認すると該当時間に一瞬ですが1%付近まで空き容量が減ったと検出しているようです。
しかしながらサーバのログからは該当時間に大量の書き込みがあったようには見えず、一瞬であったことから
実際に空き容量が1%付近まで減ったようには見受けられませんでした。

zabbixのディスクの容量監視にて、誤検出することはあるのでしょうか。
該当時間はディスクI/Oが多かったようなのですが、例えば実際の空き容量を確認しているわけではなく、
ディスクへの書き込みをテストし、その書き込み時間がかかると空き容量が無いといった判定をするような
仕組みになっているといったことはないでしょうか。

似たような事象で、シンプルチェックによるポート監視(net.tcp.service[])でもサービス停止していないのに
ダウンを検出することがあります。
これも対象ポートへの接続を試みて、タイムアウト時間までに応答がないとダウンと判断したりするなど、
停止していなくとも停止と判定されるパターンがあるのではないかと推測しておりますがいかがでしょうか。

【バージョン】
2.4.6

【トリガーの条件式】
vfs.fs.size[/,pfree].last(0)}<10

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー TNK の写真

しかしながらサーバのログからは該当時間に大量の書き込みがあったようには見えず、一瞬であったことから
実際に空き容量が1%付近まで減ったようには見受けられませんでした。

サーバーの何のログのどのような出力で判断されたのでしょうか?
サーバー上で稼働しているアプリケーションやミドルウェアすべて
を考慮した状態確認をされましたか?

閾値を超えたのは一瞬であったとしても、アプリケーションやミド
ルウェアが処理の作業用にハードディスクを一時的に使用していて、
処理が終了してその作業用の領域が解放された可能性も考えられる
と思います。

該当するアイテムの最新データを参照して、グラフやその現象が発
生した前後の時間帯の変化を確認してみてください。

zabbixのディスクの容量監視にて、誤検出することはあるのでしょうか。

ディスクの空き容量は、その時点のカーネルのステータスファイル
から読みだして計算しているだけですので、それで誤った値が取得
される可能性は低いと思います。
時間経過による変化から計算しているわけではありません。

これも対象ポートへの接続を試みて、タイムアウト時間までに応答がないとダウンと判断したりするなど、
停止していなくとも停止と判定されるパターンがあるのではないかと推測しておりますがいかがでしょうか。

タイムアウトが発生すれば接続不可と判断されたと思います。

接続までに時間がかかっても問題がないのであれば、Timeoutの時
間の設定を伸ばしてみてください。
ただし、最大30秒までです。

瞬間的な閾値の超過であれば無視をしたいということならば、トリ
ガーの条件式を変更して複数回連続して失敗したらとか、enoさん
が障害とみなしたい条件にカスタマイズしてください。