AFF-A300のHAインターコネクトリンクが停止
環境
AFF-A300
問題
- 障害が発生したノードのマザーボードを交換した後も、HAインターコネクトはオフラインのままでした。
- システムではリンクフラッピングが繰り返し発生し、最終的にはダウンしたままでした。
system HAインターコネクト status showの出力:
Node A: Logical Link status is Down
 Node B: Logical Link status is Down
 NODE-A
 slot 0: Interconnect HBA: Generic OFED Provider
   Port Name:      ic0a
   GID:         fe80:0000:0000:0000:0000:0000:0000:0104
   Base LID:       0x104
   Active MTU:      8192
 slot 0: NTB Interconnect (PLX87b0)
   Max HW Data Rate:  PCIe Gen 3 x 8
   HW Data Rate:   PCIe Gen 1 x 0
   SW Data Rate:   PCIe Gen 1 x 0
   Logical Link:   Down <<<<<<
   Port State:   Enabled
NODE-B
 slot 0: Interconnect HBA: Generic OFED Provider
   Port Name:      ic0a
   GID:         fe80:0000:0000:0000:0000:0000:0000:0105
   Base LID:       0x105
   Active MTU:      8192
 slot 0: NTB Interconnect (PLX87b0)
   Max HW Data Rate:  PCIe Gen 3 x 8
   HW Data Rate:   PCIe Gen 1 x 8
   SW Data Rate:   PCIe Gen 3 x 0
  Logical Link:   Down <<<<<
   Port State:   Enabled
  
 EMSログ:
[?]  Tue Sep 09 14:24:42 +0200 [NODE-A: gop_eq_thread: ic.linkStatusChange:info]: HA interconnect: Port ic0a link is down.
 [?]  Tue Sep 09 14:25:55 +0200 [NODE-A: gop_eq_thread: ic.linkStatusChange:info]: HA interconnect: Port ic0a link is up.
または
[?]  Mon Sep 15 19:00:00 +0200 [NODE-A: statd: ic.HAInterconnectDown:error]: HA interconnect: Interconnect down for 5438 minutes: links down
 [?]  Mon Sep 15 20:00:00 +0200 [NODE-A: statd: ic.HAInterconnectDown:error]: HA interconnect: Interconnect down for 5498 minutes: links down
  
- シャーシからコントローラを取り外すことにより、HAペアのハード電源サイクルが実行されました - HAペアは一時的に回復しましたが、フラッピングして再び障害が発生しました
 
- パートナーノードを挿入したNode Aでマザーボードの再装着を試行しましたが、変更はありませんでした
- パートナーノードを挿入したNode Aでマザーボードの交換を実行しましたが、変更はありませんでした
- パートナーノードをシャーシに挿入したNode Bでマザーボードの再装着を実行しましたが、変更はありませんでした