スイッチSFPの障害が原因でホストのパフォーマンスが低下
環境
- ONTAP 9
- SAN
- FC
問題
- NetApp LUNがマッピングされているホスト/アプリケーション側でパフォーマンスが低下している。
- 影響を受けるホストまたはハイパーバイザーは1つだけです。
- アプリケーションからI/Oデバイスエラーが報告され、最終的にジョブが失敗します。
- VMwareではレイテンシのピークが非常に高くなっています。
- VMware側では、以下のイベントが発生しています。
2023-06-13T21:04:01.379Z cpu0:2097809)NMP: nmp_ThrottleLogForDevice:3867: Cmd 0x2a (0x45b9547879c8, 5247624) to dev "naa.600a09803830464b522b4cxxxxxxxxxx" on path "vmhba1:C0:xx:L2x" Failed:
2023-06-13T21:04:01.379Z cpu0:2097809)ScsiDeviceIO: 4124:Cmd(0x45b9547879c8) 0x2a, CmdSN 0x800e0009 from world 5247624 to dev "naa.600a09803830464b522b4cxxxxxxxxxx" failed H:0x8 D:0x0 P:0x0
- NetApp側でperfアーカイブを分析すると、影響を受けたLUNのレイテンシが低く 、ノードのCPU利用率 も低いことが確認されました。
- パフォーマンスの観点から見ると、 ストレージ側ではすべて問題ありません。
- ボリュームを別のノードに移動すると問題が解決します。
- EMSログで、影響を受けたポートでIO WQEまたはAEN 0x8048エラーが検出されたか、エラーが検出されない可能性があることが報告されます。
Tue Jun 13 18:08:59 +0200 [sdea-nas-p04c: fct_tpd_work_thread_0: fcp.io.status:debug]: STIO Adapter:10a IO WQE failure, Handle 0x4, Type 8, S_ID: CB0C00, VPI: 3, OX_ID: 5A6, Status 0x3 Ext_Status 0x1d
Tue Jun 13 18:09:31 +0200 [sdea-nas-p04c: fct_tpd_work_thread_0: fcp.io.status:debug]: STIO Adapter:10a IO WQE failure, Handle 0x4, Type 8, S_ID: B2D02, VPI: 3, OX_ID: 707, Status 0x3 Ext_Status 0x1d
Tue Jun 13 18:08:59 +0200 [sdea-nas-p04c: fct_tpd_work_thread_0: fcp.io.status:debug]: STIO Adapter:10a AEN 0x8048 (RECV_ERROR) MboxStatus1 0x1000 MboxStatus2 0xc1
Tue Jun 13 18:08:59 +0200 [sdea-nas-p04c: fct_tpd_work_thread_0: fcp.io.status:debug]: STIO Adapter:10a AEN 0x8048 (RECV_ERROR) MboxStatus1 0x1008 MboxStatus2 0x44
Tue Jun 13 18:08:59 +0200 [sdea-nas-p04c: fct_tpd_work_thread_0: fcp.io.status:debug]: STIO Adapter:10a AEN 0x8048 (RECV_ERROR) MboxStatus1 0x1003 MboxStatus2 0x44
- このポート10aは、ホストと影響を受けるLUN間のアクティブな接続の一部です。
- ストレージ側のこのポートでLow Rxが報告されています。
Adapter 10a
Received Optical Power 286.3 (uWatts)
SFP Transmitted Optical Power 835.8 (uWatts)
- Low Rxは、デバイスへのケーブルまたはアップストリームのいずれかの問題を示します。
- 接続されているスイッチポートで報告されたLOX送信電力: