パーティションイメージ障害のためCPスイッチがダウンしています
環境
Brocadeスイッチ
問題
- BrocadeスイッチのFOSをバージョンv9.1.1c3からv9.2.1aにアップグレードする際に、 CPのIPが30~35分間オフラインになり 、パーティションイメージの障害が原因でCPスイッチがダウンしました。
- アップグレード中にスタンバイパーティションのフェイルオーバーに失敗しました。
- スロット2はアクティブCPでしたが、スイッチにアクセスできなくなり、スロット1への強制フェールオーバー後にアクセスが回復しました。
firmwaredownloadstatus:
[1]: Fri Aug 16 21:58:10 2024
Slot 2 (CP1, active): Firmware is being downloaded to standby CP. This step may take up to 30 minutes.
[2]: Fri Aug 16 22:12:38 2024
Slot 2 (CP1, active): Firmware has been downloaded successfully to Standby CP.
[3]: Fri Aug 16 22:12:39 2024
Slot 2 (CP1, active): Standby CP is going to reboot with new firmware.
[4]: Fri Aug 16 22:15:00 2024
Slot 2 (CP1, active): Standby CP booted successfully with new firmware.
[5]: Fri Aug 16 22:16:55 2024
Slot 1 (CP0, active): Forced failover succeeded. New Active CP is running new firmware
[6]: Fri Aug 16 22:17:30 2024
Slot 1 (CP0, active): Firmware is being downloaded to standby CP. This step may take up to 30 minutes.
[7]: Fri Aug 16 22:20:13 2024
Slot 1 (CP0, active): Firmware has been downloaded successfully on Standby CP.
[8]: Fri Aug 16 22:20:14 2024
Slot 1 (CP0, active): Standby CP reboots.
[9]: Fri Aug 16 22:22:10 2024
Slot 1 (CP0, active): Firmware commit operation has started on both active and standby CPs.
[10]: Fri Aug 16 22:22:11 2024
Slot 1 (CP0, active): Standby CP booted successfully with new firmware.
[11]: Fri Aug 16 22:22:11 2024
Slot 1 (CP0, active): The firmware commit operation has started. This may take up to 10 minutes.
[12]: Fri Aug 16 22:26:41 2024
Slot 1 (CP0, active): The commit operation has completed successfully.
[13]: Fri Aug 16 22:26:42 2024
Slot 1 (CP0, active): Firmware commit operation has completed successfully on active CP.
[14]: Fri Aug 16 22:26:42 2024
Slot 1 (CP0, active): Firmwaredownload command has completed successfully. Use firmwareshow to verify the firmware versions.
emtraceshow2
出力では、スロット2のCPブレードに障害が発生しています。
EMTRACESHOW2
Slot 2 FLT(20035) ON(10014) ---------- FLT(20035) 020003 1 0 Aug 16 22:15:50
Slot 2 ON(20000) ON(10035) ---------- ON(20000) 020003 1 0 Aug 16 22:20:30
Slot 2 FLT(20035) ON(10014) ---------- FLT(20035) 020003 1 0 Aug 16 22:20:33
- ハングプロセスは複数の理由で発生する可能性があります。その一部を以下に示します。
- ソフトウェアの不具合(メモリリーク)
- IPインターフェイスを介したスイッチの過剰なポーリング(例:tenable)
- ハードウェア障害を介して。