ONTAPノードが失敗し、ブート時にVLDBまたはvifmgrエラーで起動しない:“panic:Process vifmgr unresponsive for xxx seconds in process nodewatchdog on release 9.x”
環境
- ONTAP 9
問題
- watchdogがタイムアウトする前にvifmgrが応答しないためにノードがパニック状態になり、リブート後にMDBをリカバリできませんでした。
Panic String: PANIC : Process vifmgr unresponsive for 629 seconds version: 9.1P12
or
Panic String: PANIC : Process vldb unresponsive for 160 seconds in process nodewatchdog on release 9.10.1P12
-
vol0でのスナップショットの差分とSnapshotによるスペース使用率が高くなって、2週間にわたって実行されていたローリングパケットトレースに起因するルートボリュームがいっぱいになりました。
Mon Mar 30 08:28:37 CDT [nodename: rshd_0: kern.cli.cmd:debug]: Command-line input: The command is 'pktt'. The full command line is 'pktt start a0a-10 -d /etc/crash -m 9018 -b 8m -s 2g -r 12'.
- パニックの直前にコンソールログには、vifmgrとVLDBがクラッシュして再開できなかったことが示されています。
Apr 13 00:49:45 [nodename:spm.vldb.process.exit:EMERGENCY]: Volume Location Database(VLDB) subsystem with ID 34409 exited as a result of signal normal exit (1). The subsystem will attempt to restart.
Apr 13 00:49:47 [nodename:spm.vifmgr.process.exit:EMERGENCY]: Logical Interface Manager(VifMgr) with ID 34415 aborted as a result of signal normal exit (1). The subsystem will attempt to restart.
-
ノードがリブートすると、vol0のスペース不足が原因でMDBをリカバリできなくなります。
Apr 13 02:54:46 [nodename:callhome.mdb.recovery.unsuccessful:EMERGENCY]: Call home for MDB RECOVERY UNSUCCESSFUL FOR THE notifyd WARNING.
ln: /var/zoneinfo/zoneinfo: No space left on device
root: Unable to ln /mroot/etc/zoneinfo to /var/zoneinfo - error code(1)
/usr/bin/plxcoeff_log: cannot create /mroot/etc/log/plxcoeff/plxcoeff.log.tmp: No space left on devicestat: /mroot/etc/log/plxcoeff/plxcoeff.log.tmp: stat: No such file or directory