MetroCluster IP リモートサイトの複数のディスクで障害が発生しました
環境
- ONTAP 9
- MetroCluster
問題
- クラスタスイッチのMetroCluster IPポートでフロー制御が無効になっていました。
- 複数のディスク障害イベント:Cluster1-1aからのHAグループ通知(FILESYSTEM DISK NOT RESPONDING)ERRORが報告されました。
- クラスタで以下のエラーが確認されました
NVミラーリングは、Clusterネットワークの劣化アラートが発生するわずか数秒前にオフラインになりましたMon Sep 11 15:03:37 +1000 [Cluster1-1a: nvmm_error: nvmm.mirror.offlined:debug]: params: {'mirror': 'HA_PARTNER'}
Mon Sep 11 15:03:37 +1000 [Cluster1-1a: nvmm_error: nvmm.mirror.offlined:debug]: params: {'mirror': 'DR_PARTNER'}
Mon Sep 11 15:03:45 +1000 [Cluster1-1a: vifmgr: vifmgr.port.monitor.failed:debug]: The "link_flapping" health check for port e0c (node Cluster1-1a) has failed. The port is operating in a degraded state.
Mon Sep 11 15:03:45 +1000 [Cluster1-1a: vifmgr: callhome.clus.net.degraded:debug]: Call home for CLUSTER NETWORK DEGRADED: Frequent Link Flapping - Cluster port e0c on node Cluster1-1a has experienced multiple link down notification
NVミラーの状態はしばらくするとオンラインに変わります
Mon Sep 11 15:15:44 +1000 [Cluster1-1a: nvmm_mirror_sync: nvmm.mirror.state.change:debug]: mirror of sysid 2, partner_type DR PARTNER, changed state from NVMM_MIRROR_SYNCING_OTHER to NVMM_MIRROR_ONLINE and took 1684 msecs.
Mon Sep 11 15:17:09 +1000 [Cluster1-1a: nvmm_mirror_sync: nvmm.mirror.state.change:debug]: mirror of sysid 2, partner_type DR PARTNER, changed state from NVMM_MIRROR_SYNCING_OTHER to NVMM_MIRROR_ONLINE and took 1605 msecs.
Mon Sep 11 15:12:53 +1000 [Cluster1-1b: nvmm_mirror_sync: nvmm.mirror.state.change:debug]: mirror of sysid 2, partner_type DR PARTNER, changed state from NVMM_MIRROR_SYNCING_OTHER to NVMM_MIRROR_ONLINE and took 1540 msecs.
Mon Sep 11 15:12:55 +1000 [Cluster1-1b: nvmm_mirror_sync: nvmm.mirror.state.change:debug]: mirror of sysid 1, partner_type HA Partner, changed state from NVMM_MIRROR_SYNCING_OTHER to NVMM_MIRROR_ONLINE and took 1545 msecs
- リモートミラーリングされたプレックスの一部または全部がオフラインになっており、ドライブが故障としてマークされています。
Plex /Cluster1-1a_ssd_aggr1/plex1 (offline, failed, inactive, pool1)
RAID group /Cluster1-1a_ssd_aggr1/plex1/rg0 (partial)
RAID Disk Device HA SHELF BAY CHAN Pool Type RPM Used (MB/blks) Phys (MB/blks)
--------- ------ ------------- ---- ---- ---- ----- -------------- --------------
dparity FAILED N/A 3630753/ -
parity FAILED N/A 3630753/ -
data FAILED N/A 3630753/ -
data FAILED N/A 3630753/ -
data FAILED N/A 3630753/ -
data FAILED N/A 3630753/ -
data FAILED N/A 3630753/ -
data FAILED N/A 3630753/ -
data FAILED N/A 3630753/ -
data FAILED N/A 3630753/ -
data FAILED N/A 3630753/ -
Raid group is missing 11 disks.
Plex /Cluster1-1a_root/plex12 (offline, failed, inactive, pool1)
RAID group /Cluster1-1a_root/plex12/rg0 (partial)
RAID Disk Device HA SHELF BAY CHAN Pool Type RPM Used (MB/blks) Phys (MB/blks)
--------- ------ ------------- ---- ---- ---- ----- -------------- --------------
dparity FAILED N/A 63849/ -
parity FAILED N/A 63849/ -
data FAILED N/A 63849/ -
data FAILED N/A 63849/ -
data FAILED N/A 63849/ -
Raid group is missing 5 disks.
サイトA:Cluster2
ノード:
Cluster2-1a - 問題は発生していません
Cluster2-1b - 問題は発生していません
サイトB:Cluster1
ノード:
Cluster1-1a ---> すべてのリモートディスクが故障/欠落しています
Cluster1-1b ---> 問題は発生していません
- ストレージとスイッチに根本的なハードウェアの問題はありません。