EMS で IO WQE 障害が発生した FC LUN のレイテンシが高い
のしんだ
環境
- ONTAP 9
- FCP
- Brocadeスイッチ
- Ciscoスイッチ
問題
- FCP経由でLUNにアクセスするホストのワークロードには、アプリケーションやクライアントに多大なレイテンシが発生します
- EMSログに頻繁にIO WQEエラーが記録される。
例:
Mon Feb 10 00:28:21 +03 [NODE01: fct_tpd_work_thread_0: fcp.io.status:debug]: STIO Adapter:10a IO WQE failure, Handle 0x2, Type 8, S_ID: 20253, VPI: 18, OX_ID: 263, Status 0x3 Ext_Status 0x1d
- AFF SAN上のStorage Virtual MachineデータLUNにアクセスできません
- FC LUNで、レイテンシが断続的に高くなります
- Brocadeスイッチで、クレジットの損失やC3 Txの破棄、またはの特定のポートでのタイムアウトによって、リンクリセットが繰り返し報告されています
porterrshow
/fabos/cliexec/porterrshow:
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs uncor
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err err
0: 89.4m 139.8m 0 0 0 0 0 0 0 1.3k 0 0 0 0 0 1.3k 0 0 0
Fabriclog
特定のポートについて記録される出力リンクリセットイベントの下にあるCiscoスイッチ
Switch 0; Thu Jul 28 00:00:18 2022 GMT (GMT+0:00)
00:02:11.754993 SCN LR_PORT(0);g=0x266 LR_IN D2,P0 D2,P0 0 NA
00:02:26.934854 SCN LR_PORT(0);g=0x266 LR_OUT D2,P0 D2,P0 0 NA
00:02:39.918129 SCN Port Offline;rsn=0x4,g=0x268 D2,P0 D2,P0 0 NA
00:02:39.918135 *Removing all nodes from port D2,P0 D2,P0 0 NA
00:02:40.770569 SCN LR_PORT(0);g=0x268 D2,P0 D2,P0 0 NA
00:02:40.773044 SCN Port Online; g=0x268,isolated=0 D2,P0 D2,P1 0 NA
fcp adapter stats -node <node_name> -adapter 1a -instance
- ストレージに隣接するプロトコルレイヤ問題 を示します
network fcp adapter show
ONTAP CLIでは、TX電力がLowに表示されます。
Received Optical Power 570.7 (uWatts)
SPF Transmitted Optical Power 123.8 (uWatts)