AFF-A300のHAインターコネクトリンクが停止
環境
AFF-A300
問題
- 障害が発生したノードのマザーボードを交換した後も、HAインターコネクトはオフラインのままでした。
- システムではリンクフラッピングが繰り返し発生し、最終的にはダウンしたままでした。
system HAインターコネクト status showの出力:
Node A: Logical Link status is Down
Node B: Logical Link status is Down
NODE-A
slot 0: Interconnect HBA: Generic OFED Provider
Port Name: ic0a
GID: fe80:0000:0000:0000:0000:0000:0000:0104
Base LID: 0x104
Active MTU: 8192
slot 0: NTB Interconnect (PLX87b0)
Max HW Data Rate: PCIe Gen 3 x 8
HW Data Rate: PCIe Gen 1 x 0
SW Data Rate: PCIe Gen 1 x 0
Logical Link: Down <<<<<<
Port State: Enabled
NODE-B
slot 0: Interconnect HBA: Generic OFED Provider
Port Name: ic0a
GID: fe80:0000:0000:0000:0000:0000:0000:0105
Base LID: 0x105
Active MTU: 8192
slot 0: NTB Interconnect (PLX87b0)
Max HW Data Rate: PCIe Gen 3 x 8
HW Data Rate: PCIe Gen 1 x 8
SW Data Rate: PCIe Gen 3 x 0
Logical Link: Down <<<<<
Port State: Enabled
EMSログ:
[?] Tue Sep 09 14:24:42 +0200 [NODE-A: gop_eq_thread: ic.linkStatusChange:info]: HA interconnect: Port ic0a link is down.
[?] Tue Sep 09 14:25:55 +0200 [NODE-A: gop_eq_thread: ic.linkStatusChange:info]: HA interconnect: Port ic0a link is up.
または
[?] Mon Sep 15 19:00:00 +0200 [NODE-A: statd: ic.HAInterconnectDown:error]: HA interconnect: Interconnect down for 5438 minutes: links down
[?] Mon Sep 15 20:00:00 +0200 [NODE-A: statd: ic.HAInterconnectDown:error]: HA interconnect: Interconnect down for 5498 minutes: links down
- シャーシからコントローラを取り外すことにより、HAペアのハード電源サイクルが実行されました
- HAペアは一時的に回復しましたが、フラッピングして再び障害が発生しました
- パートナーノードを挿入したNode Aでマザーボードの再装着を試行しましたが、変更はありませんでした
- パートナーノードを挿入したNode Aでマザーボードの交換を実行しましたが、変更はありませんでした
- パートナーノードをシャーシに挿入したNode Bでマザーボードの再装着を実行しましたが、変更はありませんでした