アグリゲートの修復の実行後にSyncMirrorプレックスの障害が報告される
環境
- ONTAP 9
- MetroCluster FC
- FlexArrayとNetApp Eシリーズバックエンド
問題
- ディザスタ時の強制スイッチオーバーに続いて、サービングサイトでアグリゲートの修復が実行され、成功したことが示されます。
mcc.drsom.fsmStateTrans:debug]: params: {'from_state': 'heal_aggrs_in_progress', 'event': 'success'}
mcc.drsom.fsmStateEntry:debug]: params: {'state': 'heal_aggrs_complete'}
- その直後にSyncMirrorプレックス障害が発生します。
raid.assim.rg.missingChild:debug]: Aggregate stor168sp4, rgobj_verify: RAID object 0 has only 4 valid children, expected 5.
raid.assim.plex.missingChild:debug]: Aggregate stor168sp4, plexobj_verify: Plex 0 only has 0 working RAID groups (1 total) and is being taken offline
raid.assim.rg.missingChild:debug]: Aggregate stor168sp1, rgobj_verify: RAID object 0 has only 5 valid children, expected 6.
raid.assim.plex.missingChild:debug]: Aggregate stor168sp1, plexobj_verify: Plex 0 only has 0 working RAID groups (1 total) and is being taken offline
raid.assim.rg.missingChild:debug]: Aggregate stor168sp15, rgobj_verify: RAID object 0 has only 4 valid children, expected 5.
raid.assim.plex.missingChild:debug]: Aggregate stor168sp15, plexobj_verify: Plex 6 only has 0 working RAID groups (1 total) and is being taken offline
- スイッチオーバーされたアグリゲートのリモートミラープレックスにLUNがありません:
Aggregate stor168sp4 (online, raid0, mirror degraded) (block checksums)
Plex /stor168sp4/plex0 (offline, failed, inactive)
RAID group /stor168sp4/plex0/rg0 (partial, block checksums)
RAID Disk Device HA SHELF BAY CHAN Pool Type RPM Used (MB/blks) Phys (MB/blks)
--------- ------ ------------- ---- ---- ---- ----- -------------- --------------
data FAILED N/A 13972000/ -
data lns24bb1:14.126L28 0f - - 0 LUN N/A 13972000/28614656000 14000000/28672000000
data lns24ab1:14.126L29 0e - - 0 LUN N/A 13972000/28614656000 14000000/28672000000
data lns24ab1:14.126L31 0e - - 0 LUN N/A 13972000/28614656000 14000000/28672000000
data lns24bb1:14.126L30 0f - - 0 LUN N/A 13972000/28614656000 14000000/28672000000
Raid group is missing 1 disk.
- 欠落したLUNはスイッチオーバークラスタの分断されたプールで確認され、スイッチオーバーされたクラスタによって誤って所有されています。
Aggregate stor168sp4 (failed, raid0, partial) (block checksums)
Plex /stor168sp4/plex0 (offline, failed, inactive)
RAID group /stor168sp4/plex0/rg0 (partial, block checksums)
RAID Disk Device HA SHELF BAY CHAN Pool Type RPM Used (MB/blks) Phys (MB/blks)
--------- ------ ------------- ---- ---- ---- ----- -------------- --------------
data lns24ab1:14.126L27 0e - - 0 LUN N/A 13972000/28614656000 14000000/28672000000
data FAILED N/A 13972000/ -
data FAILED N/A 13972000/ -
data FAILED N/A 13972000/ -
data FAILED N/A 13972000/ -
Raid group is missing 4 disks.