ファイルサーバーの監視(windowsサーバー)

社内のファイルサーバー(NAS)をwindowsサーバーで利用していますが、
時々、サーバーへアクセス不可となり、ユーザーからの指摘によって
再起動を行うという対処になってしまっています。

zabbixにて、pingでの死活監視は設定していますが、死活監視上では正常なままのため、
Zabbix上では障害検知が出来ていません。

このようなケースの障害検知方法、および、その障害を検知したタイミングで、
サーバー再起動させる方法について教えて頂けないでしょうか。

コメント表示オプション

お好みのコメント表示方法を選び「設定の保存」をクリックすると変更が反映されます。
ユーザー lilith relic の写真

どのようなNASを使われているのかわかりませんが、
取得可能であればSNMPでProcessのStatus情報を取得するとかでしょうか。

死活上問題が無いのは別として、
アクセス出来なくなる問題の切り分けが済んでると、
何を監視すれば良いかの答えが出ると思います?

サーバーの再起動がどちらを指すのか不明ですが、
LinuxベースのNASで権限が許容されていて、
運用上問題無いならばSSHから再起動コマンドを送信とかでしょうか。

ユーザー yamashita18 の写真

lilith relicさま

早速のご回答ありがとうございました。

レノボの2Uサーバーとなっておりまして、OSはWindows Server 2012となっています。

問題の切り分けが出来ているかというと、死活監視では正常なのに、他のユーザーが
ファイルへのアクセスできないので、サーバーを再起動して対応しているというのが実情です。

再起動時はWindowsでのリモート接続は出来ず、サーバー管理ツール(IMM)による
リモート接続は可能という状態です。

情報量が少なくて申し訳ありません。
何かアドバイスを頂けると助かります。

ユーザー lilith relic の写真

IMMという物がいまいち解らないのですが、
HPのiLOみたいなものでしょうか。

個人的には「とりあえず再起動」というのは乱暴な気がしていて、
何が原因でアクセス出来なくなっているかを調べるのが先な気はします。
というのも、外部からアクセスを受け付けない状態であれば、
zabbixからコマンドやスクリプトを実行しても意味がないでしょう。

net.tcp.service

まれにエージェントを入れれない環境ではシンプルチェックやSNMPで監視する事はあるので、
検討されてみてはどうでしょうか。

ユーザー yamashita18 の写真

ご指摘の通り、アクセスが出来なくなっている原因調査が出来ておらず、
再起動という対処になってしまっているのが現状です。

そもそもの監視をCPUとメモリとディスクのリソース監視と、
死活監視しか出来ていないという状態だったので、windowsの
サービス監視等も追加してみて、アクセスできない原因調査を
行うようにしてみます。

ご回答ありがとうございました。