アダプタがタイムアウトしてLUNが切断されています
環境
- ONTAP 9
- Brocadeスイッチ
- Fiber Channel Protocol(FCP)
- Windows ホスト
- ESXiホスト
- ストレージのQLogicアダプタ
- ファブリックのパフォーマンスへの影響通知(FPIN)
問題
- Fabric Name Server ManagerへのLIF登録 が 「NS Registration Done」でない、タイムアウトが表示されるか失敗することがある
net int show -vserver * -data-protocol fcp -fields status-oper,status-extended
- リブート後にホストのLUNが失われます。
- ホストはストレージへの4つのパスで構成されていますが、LUNは1つのパスでしか認識されません。
- ゾーニングと設定はネットアップの推奨事項に従っており、スイッチとストレージの両端のポートの受信(Rx)レートと送信(Tx)レートが最適な範囲内に収まっています。
- NetApp側ではFCポートはオンラインと表示されますが、これらのポートを介してデータ転送は行われていません。
cluster::*> statistics port fcp show
cluster : 4/12/2024 11:14:02
NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf
*Read Write Other Total Read Write CAW Other Remote Remote CAW Remote Total Remote
Port Ops Ops Ops Ops Ops Ops Ops Ops Read Ops Write Ops Ops Other Ops Ops Total Ops
------- ----- ----- ----- ----- ---- ----- ---- ----- -------- --------- ---- --------- ----- ---------
port.1b 45 160 30 236 0 0 0 0 0 0 0 0 0 0
port.1a 19 676 26 721 0 0 0 0 0 0 0 0 0 0
port.1b 14 43 47 105 0 0 0 0 0 0 0 0 0 0
port.1a 14 149 19 183 0 0 0 0 0 0 0 0 0 0
port.10b
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10b
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10a
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10a
0 0 0 0 0 0 0 0 0 0 0 0 0 0
- I/O処理が行われていないポートでは、LUNはそれらのポートを通じてホスト側で認識されません。
- 新しいFC LIFが作成されても
operational status up
- ONTAPでテイクオーバー(TO)/ギブバック(GB)が完了するまで、ホストはLUNに接続できない
- ONTAPのアップグレード後にLUNがホストから切断される
- ホストをリブートしても問題が解決されない
- イニシエータが
not logged in
状態を報告
A22xxxG1::*> igroup show COKHCH1xx10 -v
Vserver Name: sxx0
Igroup Name: COKHCxxL10
Protocol: mixed
OS Type: vmware
Portset Binding Igroup: -
Initiators: 50:0x:0x:00:0x:cx:7e:2x
50:0x:0x:00:0x:cx:7e:2x
Child Igroups: -
Igroup UUID: c5ec904e-18xx-11ed-bbxx-d039ea903bxx
ALUA: true
Initiators: 50:0x:0x:00:0x:cx:7e:2x (not logged in)
50:0x:0x:00:0x:cx:7e:2x (logged in)
Vserver UUID: 2ef579xx-18b5-11xx-bbxx-d039ea903bxx
...
Igroup Comment:
- ONTAPの複数のアダプタ がタイムアウトになり 、複数のホストへの接続が切断される
cluster01::> network fcp adapter show -node node1 -adapter Xa
Error: show failed: Timeout while getting fabric information
cluster01::> network fcp adapter show -node node01 -adapter Xb
Error: show failed: Timeout while getting fabric information
MGWD.log
観察されたタイムアウトメッセージ:
例:[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: SAN::FCP::ADAPTER_KERNEL: src/tables/san/fcp_adapter_internal.cc:get_imp:95 returning: 418/24 - Timeout while getting fabric information
[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: SAN::FCP::ADAPTER: src/tables/san/fcp_adapter.cc:get_imp:719 returning: 418/24 - Timeout while getting fabric information
[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: NET::VIF::SAN: src/tables/san/net_vif_san.cc:populateFcpPortmap:991 Failed getting the FCP port on node netapp01 for lif lif01: Timeout while getting fabric information
- ONTAPからのダウン/アップポートは一時的に解決するが、問題は1~2時間後に戻る
- スイッチ側のダウン/アップポートが解決しない
- ホストに次のようなエラーメッセージが記録されることがあります。
May 16 15:41:28 Host_name: qla2xxx [0000:b1:00.0]-5037:11: Async-login failed: handle=d pid=011703 wwpn=XX:XX:XX:XX:XX:XX:XX:XX comp_status=31 iop0=18 iop1=92900