NetApp Element ソフトウェアでは、メモリエラーが誤って報告され、MemCtlr0のmemoryEccThresholdに対してクラスタエラーが発生する可能性があります
環境
- NetApp Element ソフトウェア 12.0 および 12.2
- NetApp SolidFire SF シリーズの製品ライン
- NetApp Hシリーズ ストレージ ノード
問題
- NetApp Element ソフトウェアで、 DIMM の修正可能なエラーがノードのメモリコントローラの修正可能なエラーとして誤って報告されることがあります
- ノードのメモリコントローラの ECC エラーに対するデフォルト設定は非常に積極的であり、 1 つのエラーが発生してもエラーの重大度が「クラスタエラー」のままです。
- NetApp SolidFire Active IQ およびクラスタ UI に表示されるクラスタエラーを次に示します
- エラー コード:
memoryEccThreshold
- 詳細:
Correctable ECC memory error count crossed threshold on Memory controller: MemCtlr0
- エラー コード:
- ノードの BMC システムイベントログ( SEL )では、クラスタ障害と同時に DIMM 上のエラーが報告される
[Information] [Memory Error] [Memory] Correctable ECC (CPU_A0) - Asserted