スイッチからターゲットへのパスでネットワーク障害が発生したため、ホスト側でディスク操作エラーが発生しました
環境
- ONTAP 9
- Brocadeスイッチ
- AIXホスト
問題
Disk operation error
Errpt log
AIXホストのでホストエンドでPath Failed
エラーが検出されました-
Errpt: -
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
DCB47997 0912191024 T H hdisk33 DISK OPERATION ERROR
F31FFAC3 0912191024 I H hdisk33 PATH HAS RECOVERED
DE3B8540 0912190924 P H hdisk33 PATH HAS FAILED
F31FFAC3 0912190924 I H hdisk38 PATH HAS RECOVERED
DCB47997 0912190824 T H hdisk38 DISK OPERATION ERROR
DE3B8540 0912190824 P H hdisk38 PATH HAS FAILED
DCB47997 0912190824 T H hdisk31 DISK OPERATION ERROR
- 問題は、どのデバイスからも何の操作も行わずに自動リカバリされました。
- ストレージ側では
CRC
ホスト側のdisk operation error
タイムスタンプに関連する エラーとITW
エラーが報告されていました。ITW
フレームがドロップされるとエラーが報告されます。- データまたはフレームが破損すると、巡回冗長検査(
CRC
)エラーが報告されます。
- また、問題時間中に
EMS
でWQE Errors
withextended status 1d
が報告されることもありました。Ext status 1d
ここでアウトオブオーダーフレーム配信を示します。
ログスニペット-
Thu Sep 12 18:59:35 +0530 [NetApp-02: fct_tpd_work_thread_0: fcp.io.status:debug]: STIO Adapter:2b IO WQE failure, Handle 0x1, Type 8, S_ID: 66F240, VPI: 275, OX_ID: 1ECE, Status 0x3 Ext_Status 0x2
Thu Sep 12 19:01:06 +0530 [NetApp-02: fct_tpd_work_thread_0: fcp.io.status:debug]: STIO Adapter:2b IO WQE failure, Handle 0x1, Type 8, S_ID: 66F8C0, VPI: 275, OX_ID: 9AD, Status 0x3 Ext_Status 0x1d
Thu Sep 12 19:02:06 +0530 [NetApp-02: fct_tpd_work_thread_0: fcp.io.status:debug]: STIO Adapter:2b IO WQE failure, Handle 0x1, Type 8, S_ID: 66F240, VPI: 275, OX_ID: 2E76, Status 0x3 Ext_Status 0x1d
- スイッチエンドで、ストレージおよびホストに接続されたスイッチポートについて、物理レイヤの問題やエラーが報告されていません。
- SFP統計は、
sfpshow
出力と同様に最適な範囲にあります-
=============
Slot 12/Port 18:
=============
RX Power: -0.6 dBm (880.40uW)
TX Power: 0.4 dBm (1087.60 uW)
fabriclog
出力にポートフラップは検出されませんでした。- ISLポートを確認し、
errdump.
- 該当するポートに対してMAPアラートはトリガーされません。
- 過去6カ月間にポート統計がクリアされなかったため、
porterrshow
報告されたエラーはすべて履歴エラーです。
fabos/bin/switchshow :
Index Slot Port Address Media Speed State Proto
============================================================
242 12 18 66f240 id N32 Online FC F-Port 10:00:00:10:9b:9e:xx:xx
368 12 32 66f8c0 id N32 Online FC F-Port 10:00:00:10:9b:9e:xx:xx
/fabos/cliexec/porterrshow :
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs uncor
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err err
242: 341.0g 71.2g 0 0 0 0 0 0 0 89 0 0 0 0 0 0 0 0 0
368: 341.0g 71.2g 0 0 0 0 0 0 0 81 0 0 0 0 0 0 0 0 0
- スイッチのホストまたはターゲット接続ポートで
ITW
エラーまたはCRC
エラーが報告されていません。これは、スイッチから送信されたフレームがターゲットに到達する直前に破損したことを示しています。 - ターゲット(NetApp)はフレームを順番に受信しましたが、シーケンス内の1つ以上のフレームが破損しています(
CRC
)。 NetApp HBAの下位レイヤによって破棄され、 FCP / SCSIレイヤでNetAppのWQE
エラーの形式で1つ以上のフレームが欠落していることが検出されました。 - フレームが破損しており、ホストが ターゲットからこれらのフレームに対する応答または確認応答を取得していないため、ホストは レポートを開始します。
disk operation error.
- 一時的な回避策としてポートを無効にして、ホストが独自にパスのフェイルオーバーを実行していない場合に、そのパスを経由してフレームが渡されないようにすることができます。