AFF A1K で CriticalCECCCountMemErrAlert およびBootDimmDisableAlertが観察される
環境
- AFF A1K
- システムDIMMモジュール
問題
- ONTAP は、EMS の CriticalCECCCountMemErrAlertMessage に対して、次のように 1 つの DIMM モジュールに対するアラートをトリガーします
[CLUSTER-01: mgwd: callhome.hm.alert.critical:alert]: Call home for Health Monitor process nphm: CriticalCECCCountMemErrAlert[DIMM-32].
- コマンド
::*> memory dimm show -node <node_name>の出力では、単一のDIMMが「degraded」と表示されます
::*> memory dimm show -node CLUSTER-01 (system controller memory dimm show) DIMM UECC CECC Alert CPU Slot FailureNode Name Count Count Method Socket Channel Number Status Reason------------- ------- ----- ----- ------ ------ ------- ------ ------- --------NAS3_APP_A DIMM-1 0 0 bucket 1 7 0 ok none ... ... DIMM-32 0 151597 bucket 0 3 0 degraded none<<<<<<<16 entries were displayed.
- 問題のDIMMを交換しても、問題は解決しません:
- 起動シーケンス中にDIMMが故障したと表示されます
- 追加のDIMMが故障しました
- 複数のDIMMモジュールが無効になっています
DIMM in slot 1 is disabledDIMM in slot 5 is disabledDIMM in slot 7 is disabledDIMM in slot 12 is disabledDIMM in slot 14 is disabledDIMM in slot 16 is disabledDIMM in slot 17 is disabledDIMM in slot 21 is disabledDIMM in slot 23 is disabledDIMM in slot 28 is disabledDIMM in slot 30 failed <<<<<< New failedDIMM in slot 32 failed
- 起動シーケンス中に、以下のエラーが発生します:
Apr 13 21:59:46 [CLUSTER-01:platform.reducedMemory:ALERT]: System memory (255 GB) is less than expected (1024 GB). Check DIMMs slots 1, 5, 7, 12, 14, 16, 17, 21, 23, 28, 30, 32.
- DIMMモジュールを別のスロットに差し替えても問題は解決しません:
Initializing System Memory ...DIMM:32 mapped out. BIOS MRC mapped out DIMM. Major / Minor Error Code: 0x46 / 0x03Complete channel mapped out.
- システムは起動できますが、無効化された DIMM ごとに新しいアラート「
BootDimmDisableAlert」がトリガーされます