パーティションイメージ障害のためCPスイッチがダウンしています
環境
Brocadeスイッチ
問題
- BrocadeスイッチのFOSをバージョンv9.1.1c3からv9.2.1aにアップグレードする際に、 CPのIPが30~35分間オフラインになり 、パーティションイメージの障害が原因でCPスイッチがダウンしました。
- アップグレード中にスタンバイパーティションのフェイルオーバーに失敗しました。
- スロット2はアクティブCPでしたが、スイッチにアクセスできなくなり、スロット1への強制フェールオーバー後にアクセスが回復しました。
firmwaredownloadstatus:[1]: Fri Aug 16 21:58:10 2024Slot 2 (CP1, active): Firmware is being downloaded to standby CP. This step may take up to 30 minutes.[2]: Fri Aug 16 22:12:38 2024Slot 2 (CP1, active): Firmware has been downloaded successfully to Standby CP.[3]: Fri Aug 16 22:12:39 2024Slot 2 (CP1, active): Standby CP is going to reboot with new firmware.[4]: Fri Aug 16 22:15:00 2024Slot 2 (CP1, active): Standby CP booted successfully with new firmware.[5]: Fri Aug 16 22:16:55 2024Slot 1 (CP0, active): Forced failover succeeded. New Active CP is running new firmware[6]: Fri Aug 16 22:17:30 2024Slot 1 (CP0, active): Firmware is being downloaded to standby CP. This step may take up to 30 minutes.[7]: Fri Aug 16 22:20:13 2024Slot 1 (CP0, active): Firmware has been downloaded successfully on Standby CP.[8]: Fri Aug 16 22:20:14 2024Slot 1 (CP0, active): Standby CP reboots.[9]: Fri Aug 16 22:22:10 2024Slot 1 (CP0, active): Firmware commit operation has started on both active and standby CPs.[10]: Fri Aug 16 22:22:11 2024Slot 1 (CP0, active): Standby CP booted successfully with new firmware.[11]: Fri Aug 16 22:22:11 2024Slot 1 (CP0, active): The firmware commit operation has started. This may take up to 10 minutes.[12]: Fri Aug 16 22:26:41 2024Slot 1 (CP0, active): The commit operation has completed successfully.[13]: Fri Aug 16 22:26:42 2024Slot 1 (CP0, active): Firmware commit operation has completed successfully on active CP.[14]: Fri Aug 16 22:26:42 2024Slot 1 (CP0, active): Firmwaredownload command has completed successfully. Use firmwareshow to verify the firmware versions.
emtraceshow2出力では、スロット2のCPブレードに障害が発生しています。
EMTRACESHOW2Slot 2 FLT(20035) ON(10014) ---------- FLT(20035) 020003 1 0 Aug 16 22:15:50Slot 2 ON(20000) ON(10035) ---------- ON(20000) 020003 1 0 Aug 16 22:20:30Slot 2 FLT(20035) ON(10014) ---------- FLT(20035) 020003 1 0 Aug 16 22:20:33
- ハングプロセスは複数の理由で発生する可能性があります。その一部を以下に示します。
- ソフトウェアの不具合(メモリリーク)
- IPインターフェイスを介したスイッチの過剰なポーリング(例:tenable)
- ハードウェア障害を介して。