HCI コンピューティングホストが修正不能なメモリエラーでクラッシュしました
環境
- NetApp HCIコンピューティングノード
- VMware ESXi
問題
- ESXiホストでPSOD(紫色の診断画面) が表示され、
uncorrectable memory error for DIMM - 可能なBMCシステムイベントログ(SEL):
(runtime) Failing DIMM: DIMM location. (PX-DIMMAX) - Assertion" and "Uncorrectable ECC @PX-DIMMAX(CPUX) - Assertion"Failing DIMM: DIMM location (Uncorrectable Memory Component Found) (PX-DIMMAX) - AssertionMemory(OEM) Uncorrectable ECC / other uncorrectable memory error @P2-DIMMC2(CPU2) - Assertion[Memory Error] [Memory] Uncorrectable ECC(CPUX_BX) - Asserted"BIOS OEM(Memory Error) Post package repair fail. (P2-DIMMC2) - AssertionBIOS OEM(Memory Error) Memory signal is too marginal. (P2-DIMMC2) - AssertionBIOS OEM(Memory Error) (runtime) Failing DIMM: DIMM location. (P1-DIMMA3) - Assertion
例:BMC SELから