SASポートの障害が原因でディスク障害が発生したため、マルチディスクパニックが発生しました
環境
問題
- ONTAPのアップグレード中に、マルチディスクのパニックが原因でNode-02がパニック状態になり、パートナーがテイクオーバーを実行します
[NODE-02: splog_main: mgr.stack.string:notice]: Panic string: aggr aggr1: raid volfsm, fatal multi-disk error.. Raid type - raid_dp Group name plex0/rg0 state RECONS. 12 disks failed in the group. Disk 0a.04.0
[NODE-02: splog_main: mgr.stack.proc:notice]: Panic in process: config_thread
- テイクオーバーを実行したノードではディスクは正常に表示されます
- ギブバックが実行されると、Node-02が再びパニック状態になります
- ポート0bでSASポートが不安定で、リンクフラッピングが発生し、1つのPHYのみがオンラインになっていることが確認された
[NODE-02: pmcsas_timeout_0: sas.adapter.debug:info]: params: {'debug_string': 'Level 0 timeout on virtual device: Hard resetting PHY: 0b.03.99 (0xfffff8077b99a040,0x12,0/0)', 'adapterName': '0a'}
[NODE-02: pmcsas_timeout_0: sas.adapter.debug:info]: params: {'debug_string': 'Level 0 timeout on virtual device: Hard resetting PHY: 0b.02.99 (0xfffff8077b9a4040,0x12,0/0)', 'adapterName': '0a'}
[NODE-02: pmcsas_timeout_0: sas.adapter.debug:info]: params: {'debug_string': 'Level 0 timeout on virtual device: Hard resetting PHY: 0b.01.99 (0xfffff8077b99e040,0x12,0/0)', 'adapterName': '0a'}
[NODE-02: rc: sas.adapter.offlining:info]: Offlining SAS adapter 0b.
[NODE-02: scsi_cmdblk_strthr_admin: scsi.cmd.adapterHardwareErrorEMSOnly:error]: Unknown device 0b.01.99: Adapter detected hardware error: HA status 0x6: cdb 0x12.
- このポートに接続されているディスクでの多数のPHY変更と、ディスクの電源再投入を確認します
- このポートをオフラインにすると、システムの安定性が回復し、ノードがパニック状態にならなくなります