DIMM UECC エラーが原因でノードが自動的にテイクオーバー / ギブバックを実行
環境
- ONTAP 9
- AFFシステム
- ASAシステム
- FASシステム
問題
- Node1でテイクオーバーが発生し、次のアラートが表示され、自動的にギブバックされます:
System Alert from SP of node1 (APPLIANCE_ASUP_DIMM_UECC_ERROR)CRITICAL
systemlogは、UECCがDIMM-Xに対して検出された後にシステムの電源サイクルがトリガーされたことを示します。
ECC error at DIMM-X: CE-01-2246-03EF3FEB,ADDR 0x2a762b080,(Node(0), Memory controller(0), CH(1), DIMM(0), Rank(0), Bank Group(1), Bank(0x1), Row(0x49ca), Col(0x380)), devtag(0x3f), correrr(0x0) Uncorrectable Machine Check Error at CPU9. BDWL_HA0 Error: STATUS<0xbe00000000010091>(Val,UnCor,Enable,MiscV,AddrV,PCC,CorrSts(0),CorrCnt(0),ExtErr(0x1),ErrCode(Channel 1, Read),ErrCode(0x91)),MISC<0x0000000150020286>(HaDbBank(0),PE(0),ReqOpcode(0xa),RNID(0),RTID(0x1),HTID(0x1))
Requesting SP to power cycle the filer to attempt to clear DRAM UECC
- SP_IPMIログに、DIMMエラーが報告されていることがわかります。
======================================
Log Collection Time:
======================================
hsamcmd --fault-show-all
===============================
tag origin fld fault reason count time
---- ------- ---- ------------- ------ -----
1 0x2 /chassis-1/controller-a/dimm-* Uncorrectable DRAM ECC 1
2 0x5 /chassis-1/controller-a OS is not booted 1
Fault Lights On:
/chassis-1 2
/chassis-1/controller-a 2
/chassis-1/controller-a/dimm-* 1
/usr/local/bin/ipmi sensors
- 次のログは
sp_system_event_logにあります:
Record697: Sat Jun 22 16:47:56.115990 2024 [IPMI Event.critical]: DIMM UECC Fatal Error detected by Storage OS
Record698: Sat Jun 22 16:47:56.127985 2024 [Trap Event.critical]: hwassistdimm_uecc_error (32)
Record699: Sat Jun 22 16:47:56.164909 2024 [Trap Event.critical]: SNMPdimm_uecc_error (32)
Record700: Sat Jun 22 16:47:56.468211 2024 [IPMI Event.critical]: System power cycle
- ギブバック後に
DIMM-INFO.XMLでDIMM-Xのステータスを確認し、ステータスがOKと表示されていることを確認します。
DIMM ID Slot Name Status
2 DIMM-X ok
- DIMM警告LEDのステータスは
SP-LATEST-RUNTIMEから確認できます
例:FRU LEDs status
======================
FRU LED ID 32 = DIMM11 FAULT LED
FRU LED ID 32 is on
======================