AFF A700s CECC :修正可能なマシンチェックエラーが間違った DIMM に対して報告されています
環境
- AFF A700s
- ONTAP 9
- ONTAP 9.1P17 以前
- ONTAP 9.3P11 以前
- ONTAP 9.4P6 以前
問題
交換後も、同じ DIMM で CECC エラーが報告される。
system health alert show
クラスタで次のようなエラーが報告されます。
Node xxxxxx
Monitor controller
Alert ID CriticalCECCCountMemErrAlert
Alerting Resource DIMM-x
Subsystem Memory
Indication Time Tue Oct 09 12:24:36 2018
Perceived Severity Critical
Probable Cause DIMM_Degraded
Description The DIMM has degraded, leading to memory errors.
- EMSログに次のようなメッセージが表示され、 特定のDIMMのCECCエラーが報告されます。
[?] Tue Oct 09 12:24:36 IST [xxxx: mgwd: callhome.hm.alert.critical:alert]: Call home for Health Monitor process nphm: CriticalCECCCountMemErrAlert[DIMM-x].
- 通常は、このDIMMの交換を推奨します。
- ただし、交換後も同じDIMMのエラーがクラスタから報告されることがあります。