パニック: NIC 交換後に AFF A400 の CPUX で修正できないマシンチェックエラーが発生します
環境
- AFF A400
- 修正不能なマシンチェックエラー
問題
PCI分析ツールによって呼び出されたスロット3のNICを交換した後、ノードで新しいUncorrectable Machine Check Error(修正不可能なマシンチェックエラー)が発生しました。
- NICを2回交換しても問題が解決しない
- 最初のパニックは、ツールによってスロット3を呼び出しました。
Uncorrectable Machine Check Error at CPU18. SKL_IIO Error: STATUS<0xbb80000000000e0b>(VALID,UC,EN,MISCV,PCC,S,AR,CORR_ERR_STATUS(0),CORR_ERR_CNT(0),MSCOD(0),MCACOD(0xe0b))MISC<0x00000000ae000000>(UCR_BUS_LOG(174),UCR_DEVICE_LOG(0),UCR_FUNCTION_LOG(0), UCR_SEGMENT_LOG(0))I
スロット3でNICを交換したあとにパニック状態になる:
Uncorrectable Machine Check Error at CPU10. SKL_IIO Error: STATUS <0xbb80000000000e0b>(VALID,UC,EN,MISCV,PCC,S,AR,CORR_ERR_STATUS(0),CORR_ERR_CNT(0),MSCOD(0),MCACOD(0xe0b))MISC<0x00000000ae000000> (UCR_BUS_LOG(174),UCR_DEVICE_LOG(0),UCR_FUNCTION_LOG(0),UCR_SEGMENT_LOG(0))IIO Machine Check from device(s):RPT(174,0,0):ErrSrcID (CorrSrc(0),UCorrSrc(0xb080)), PLX PCIE 8796 switch on Controller, Br[8796](176,16,0): Link down.