ONTAPのアップグレード中にノードがブートループに陥り、アップノードがリブートする
環境
AFF-A250
ONTAPアップグレード
問題
- ONTAPアップグレード中に、1つのノードが適切にリブートせず、ブートループが発生します。
- ノードで、ディスクシェルフをホストするカードにエラーが表示されます:
Device Bus:23 Dev:0 Fun:0 (slot 1) failed to train at max link speed/width
- 呼び出されたカードの背後にあるディスクに対して見られるエラー:
[node1:diskown.errorDuringIO:error]: error 23 (adapter error prevents command from being sent to device) on disk 1d.00.11 (S/N xxxxxxxx) while reading reservation state
[node1:raid.config.filesystem.disk.not.responding:notice]: File system Disk 1a.00.11 Shelf 0 Bay 11 [NETAPP X357_S163A3T8ATE NA54] S/N [xxxxxxxx] is not responding.
[node1:scsi.cmd.abortedByHost:error]: Unknown device 1d.00.11: Command aborted by host adapter: HA status 0x4: cdb 0x12.
- ディスクでの作業やノードのONTAPブートを試行すると、アップノードが予期せずリブートします。 例:
Node node2 encountered PANIC: aggr aggr0_node2: raid volfsm, fatal multi-disk error.
- up-nodeからのEMSログにはSK haltが表示されます:
[node2: shutdown_thread0: kern.shutdown.initiator:debug]: SK halt was initiated by "maytag.ko::shutdown_appliance_real+8270"
- カードやマザーボードの交換でも問題が持続します。
- システムの電源が適切であることが確認されました。