X91153AカードでPCIe Stealthエラーが発生するとノードがリブートする
環境
- AFF A900の略
- ONTAP 9.12.1P4
- X91153Aイーサネットストレージコントローラ
問題
- EMSログまたはSPログに原因がクリアされずにノードがリブートする
- 次のようなEMSエラーがログで繰り返し記録されることを確認します。
Fri Oct 20 22:45:27 -0400 [cluster1-01: ICL error: pcie.stealth.errors:debug]: params: {'pcie_errors': 'IIO0: RPT(135,2,0): Microchip PCI-E Switch on Controller, Microchip PCI-E Switch in slot 11 on Controller, Br[4000](137,0,0): DevStatus(Corr), CorrErr(Rcvr,RpTim); Br[4036](139,0,0) in slot 11: DevStatus(Corr), CorrErr(RpTim); '}
Fri Oct 20 22:47:27 -0400 [cluster1-01: ICL error: pcie.stealth.errors:debug]: params: {'pcie_errors': 'IIO0: RPT(135,2,0): Microchip PCI-E Switch on Controller, Br[4000](137,0,0): DevStatus(Corr), CorrErr(Rcvr); '}
sysconfig -ac
呼び出されているカードを確認する場合、この例ではスロット11はX91153Aカードを指しています。
sysconfig: slot 11 OK: X91153A: 2p 40G/100G RoCE QSFP28