NVDIMM 障害によってトリガーされた MetroCluster での書き込みレイテンシの上昇
環境
- ONTAP 9
- MetroCluster
問題
- NVDIMM(不揮発性DIMM)に障害が発生していた期間中に、クラスター上で書き込みレイテンシが急激に上昇することが観測されました。この問題は、以下の一連の出来事と同時期に発生しました:
[node-01:cf_main:cf.fsm.takeover.panic:alert]: Failover monitor: takeover attempted after partner panic.[node-01:cf_takeover:cf.fm.takeoverComplete:notice]: Failover monitor: takeover completed[node-01:cf_main:cf.fsm.autoGivebackStarted:info]: Failover monitor: Automatic giveback started[node-01:cf_giveback:cf.fm.givebackComplete:notice]: Failover monitor: giveback completed[node-02:nphmd:hm.alert.cleared:notice]: AlertId=CriticalCECCCountMemErrAlert, AlertingResource=NVDIMM-11 cleared by monitor controller Node-02 は NVRAM の劣化によりシステムパニックが発生し、パートナーノード(Node-01)による自動テイクオーバーが開始されました。- テイクオーバー後、ONTAP は自動ギブバックを実行し、アグリゲートを影響を受けたノードに返却しました。
- ギブバック後、Node-02 は劣化した NVRAM の状態で動作を継続し、その結果、MetroCluster 全体で書き込みレイテンシが上昇しました。