アダプタのタイムアウトによる LUN の切断
環境
- ONTAP 9
- Brocadeスイッチ
- Fiber Channel Protocol(FCP)
- Windows ホスト
- ESXiホスト
- ストレージ上のQLogicアダプタ
- Fabric Performance Impact Notifications(FPIN)
問題
- ファブリック ネーム サーバ マネージャを使用したLIFの登録が「NS Registration Done」ではない場合は、タイムアウトまたはエラーが表示されることがあります
net int show -vserver * -data-protocol fcp -fields status-oper,status-extended
- リブート後にLUNを失うホスト
- ホストはストレージへの4つのパスで設定されているのに、LUNが認識されるのは1つのパスだけである
- ゾーニングと設定はNetAppの推奨事項に従っており、スイッチとストレージの両方のポートの受信(Rx)と送信(Tx)レートが最適な範囲内にある
- FCポートはNetApp側ではオンラインとして表示されていますが、これらのポートを経由するデータ転送は行われていません
cluster::*> statistics port fcp show
cluster : 4/12/2024 11:14:02
NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf
*Read Write Other Total Read Write CAW Other Remote Remote CAW Remote Total Remote
Port Ops Ops Ops Ops Ops Ops Ops Ops Read Ops Write Ops Ops Other Ops Ops Total Ops
------- ----- ----- ----- ----- ---- ----- ---- ----- -------- --------- ---- --------- ----- ---------
port.1b 45 160 30 236 0 0 0 0 0 0 0 0 0 0
port.1a 19 676 26 721 0 0 0 0 0 0 0 0 0 0
port.1b 14 43 47 105 0 0 0 0 0 0 0 0 0 0
port.1a 14 149 19 183 0 0 0 0 0 0 0 0 0 0
port.10b
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10b
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10a
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10a
0 0 0 0 0 0 0 0 0 0 0 0 0 0
- I/O処理が行われていないポートで、ホスト側のポートを介してLUNが認識されない
- 新しく作成したFC LIFで
operational status up - ONTAPでテイクオーバー(TO)/ギブバック(GB)が完了するまでホストはLUNに接続できない
- ONTAPアップグレード後にホストからLUNが切断された
- ホストを再起動しても問題が解決しない
- イニシエータは
not logged inの状態を報告します:
A22xxxG1::*> igroup show COKHCH1xx10 -v
Vserver Name: sxx0
Igroup Name: COKHCxxL10
Protocol: mixed
OS Type: vmware
Portset Binding Igroup: -
Initiators: 50:0x:0x:00:0x:cx:7e:2x
50:0x:0x:00:0x:cx:7e:2x
Child Igroups: -
Igroup UUID: c5ec904e-18xx-11ed-bbxx-d039ea903bxx
ALUA: true
Initiators: 50:0x:0x:00:0x:cx:7e:2x (not logged in)
50:0x:0x:00:0x:cx:7e:2x (logged in)
Vserver UUID: 2ef579xx-18b5-11xx-bbxx-d039ea903bxx
...
Igroup Comment:
- ONTAP上のいくつかのアダプタがタイムアウトを報告し、複数のホストへの接続が切断されます:
cluster01::> network fcp adapter show -node node1 -adapter XaError: show failed: Timeout while getting fabric informationcluster01::> network fcp adapter show -node node01 -adapter XbError: show failed: Timeout while getting fabric informationMGWD.logタイムアウト メッセージが確認されました:
例:[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: SAN::FCP::ADAPTER_KERNEL: src/tables/san/fcp_adapter_internal.cc:get_imp:95 returning: 418/24 - Timeout while getting fabric information
[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: SAN::FCP::ADAPTER: src/tables/san/fcp_adapter.cc:get_imp:719 returning: 418/24 - Timeout while getting fabric information
[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: NET::VIF::SAN: src/tables/san/net_vif_san.cc:populateFcpPortmap:991 Failed getting the FCP port on node netapp01 for lif lif01: Timeout while getting fabric information
- ONTAPのDown/UPポートは一時的に解決するが、1、2時間後に問題が再発する
- スイッチ側のDown/UPポートが解決しない
- ホストに次のようなエラー メッセージが記録されることがある:
May 16 15:41:28 Host_name: qla2xxx [0000:b1:00.0]-5037:11: Async-login failed: handle=d pid=011703 wwpn=XX:XX:XX:XX:XX:XX:XX:XX comp_status=31 iop0=18 iop1=92900