ディスクが接続されていないため、 FAS62xx / FAS80xx でマザーボードを交換したあとにギブバックできません
環境
- FAS62xx
- FAS80xx
- AFF8080
- マザーボードの交換
- NVRAM の交換
- パーティショニングされていないドライブ
問題
- テイクオーバーノードでの HA インターコネクトポートの停止が原因でルートボリュームが見つからないため、ギブバックを実行できません。
WARNING: there do not appear to be any disks attached to the system. No root volume found. Rebooting... (press ctrl-c during boot to break reboot loop)
- テイクオーバーノードでインターコネクトリンクが停止しています。 NVRAM カードがテイクオーバーノードで停止状態になった可能性があります。
- コントローラ -IOXM ( CI )のセットアップでは、物理ポートの両端が停止していると表示されます(ループバックでは、カードでインターコネクトリンクが両方とも停止しています)。
- テイクオーバー後、テイクオーバーノードの EMS から次のメッセージが表示されることがあります
Wed Dec 06 12:37:27 GMT [n2: ib_nap_tx_2: connectx.shoutTimeout:debug]: Node advertisement send timed out on Port ib0b.
Wed Dec 06 12:37:29 GMT [n2: ib_nap_tx_1: connectx.shoutTimeout:debug]: Node advertisement send timed out on Port ib0a.
Wed Dec 06 12:37:37 GMT [n2: cfdisk_config: cf.diskinventory.sendFailed:debug]: params: {'errorCode': '1', 'reason': 'HA Interconnect down'}
Wed Dec 06 12:37:40 GMT [n2: ib_nap_tx_2: connectx.shout.portDisabled:critical]: Node advertisement send timed out on Port ib0b. ConnectX registers have been dumped to the /etc/ConnectX_regdump file.
Wed Dec 06 12:37:40 GMT [n2: mlx4_intr_handler: mlx4.link.statusChange:info]: InfiniBand port ib0b: Link down.
Wed Dec 06 12:37:41 GMT [n2: ib_nap_tx_2: ems.engine.suppressed:debug]: Event 'rdma.rdr.opFailed' suppressed 5 times in last 29618503 seconds.
Wed Dec 06 12:37:41 GMT [n2: ib_nap_tx_2: rdma.rdr.opFailed:debug]: RDR operation get_entity_property failed on error 7005.
Wed Dec 06 12:37:42 GMT [n2: ib_nap_tx_1: connectx.shout.portDisabled:critical]: Node advertisement send timed out on Port ib0a. ConnectX registers have been dumped to the /etc/ConnectX_regdump file.
Wed Dec 06 12:37:42 GMT [n2: mlx4_intr_handler: mlx4.link.statusChange:info]: InfiniBand port ib0a: Link down.
Wed Dec 06 12:37:44 GMT [n2: ib_mad2_wq: ems.engine.suppressed:debug]: Event 'ic.rdma.qpDisconnected' suppressed 4 times in last 29618502 seconds.
Wed Dec 06 12:37:44 GMT [n2: ib_mad2_wq: ic.rdma.qpDisconnected:debug]: kstat is disconnected.
- ギブバックを実行しようとすると、テイクオーバーノードにパートナーがギブバック待機状態として表示されなくなります。
例:
7-mode :(テイクオーバー時はパートナーですが、ギブバック待機中は表示されません)
n2(takeover)> cf status
n1 has taken over n2.
clustered
n2
<---- は「ギブバック待ち」になっているはずです
n1 false In takeover
n1
n2 - Unknown
- インターコネクトが停止していることを確認します
7-Mode:
n2*> ic status
Link 0: down
Link 1: down
IC RDMA connection : down
clustered
cluster::*> storage failover interconnect show-link local
Node Port Number Link State
------------------------------------------------------------------------------
n2
0 down
1 down
2 entries were displayed.
- コントローラがコントローラ -IOXM ( CI )セットアップに含まれている場合は、物理的な HA インターコネクトリンクでリンク LED は表示されません。停止しているノードがギブバックを待機している間に、 HA インターコネクトポートでループバックを実行(同じコントローラのポート 0 からポート 1 にケーブル接続)すると、停止しているコントローラにライトが点灯しますが、テイクオーバーノードのライトは点灯しません。
- インターコネクトポートを手動で起動してみてください。次のエラーが表示されます
7-Mode:
n2(takeover)*> ic link on 0
Error: Failed to perform requested operation on port 0 due to an internal error.
The port has been disabled. To re-enable the port, reboot the system.
clustered
cluster::*> interconnect link on -node n2 -link 0
(system ha interconnect link on)
Error: command failed: Failed to perform requested operation on link 0 due to
an internal error. The port has been disabled. To re-enable the port,
reboot the system.
- テイクオーバーノードで上記のエラーが発生した場合は、 NVRAM カードがハング状態になった可能性があります。