アダプタがタイムアウトしてLUNが切断される
環境
- ONTAP 9
- Brocadeスイッチ
- Fiber Channel Protocol(FCP)
- Windows ホスト
- ESXiホスト
- ストレージのQLogicアダプタ
- ファブリックのパフォーマンスへの影響通知(FPIN)
問題
- Fabric Name Server ManagerへのLIF登録が「NS Registration Done」でない、タイムアウトが表示されるか失敗することがある
net int show -vserver * -data-protocol fcp -fields status-oper,status-extended
- リブート後にホストでLUNが失われる
- ホストはストレージへの4つのパスで構成されているが、LUNは1つのパスでしか認識されない
- ゾーニングと設定はNetAppの推奨事項に従っており、スイッチとストレージの両端のポートの受信(Rx)レートと送信(Tx)レートが最適な範囲内にある
- NetApp側ではFCポートはオンラインと表示されますが、次のポートを経由したデータ転送は行われていません。
cluster::*> statistics port fcp show
cluster : 4/12/2024 11:14:02
NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf
*Read Write Other Total Read Write CAW Other Remote Remote CAW Remote Total Remote
Port Ops Ops Ops Ops Ops Ops Ops Ops Read Ops Write Ops Ops Other Ops Ops Total Ops
------- ----- ----- ----- ----- ---- ----- ---- ----- -------- --------- ---- --------- ----- ---------
port.1b 45 160 30 236 0 0 0 0 0 0 0 0 0 0
port.1a 19 676 26 721 0 0 0 0 0 0 0 0 0 0
port.1b 14 43 47 105 0 0 0 0 0 0 0 0 0 0
port.1a 14 149 19 183 0 0 0 0 0 0 0 0 0 0
port.10b
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10b
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10a
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10a
0 0 0 0 0 0 0 0 0 0 0 0 0 0
- I/O処理が行われていないポートでは、LUNはこれらのポートを通じてホスト側で認識されません。
- 新しいFC LIFが作成されても
operational status up
- ONTAPでテイクオーバー(TO)/ギブバック(GB)が完了するまで、ホストはLUNに接続できない
- ONTAPのアップグレード後にLUNがホストから切断される
- ホストをリブートしても問題が解決されない
- イニシエータ から
not logged in
状態が報告されます:
A22xxxG1::*> igroup show COKHCH1xx10 -v
Vserver Name: sxx0
Igroup Name: COKHCxxL10
Protocol: mixed
OS Type: vmware
Portset Binding Igroup: -
Initiators: 50:0x:0x:00:0x:cx:7e:2x
50:0x:0x:00:0x:cx:7e:2x
Child Igroups: -
Igroup UUID: c5ec904e-18xx-11ed-bbxx-d039ea903bxx
ALUA: true
Initiators: 50:0x:0x:00:0x:cx:7e:2x (not logged in)
50:0x:0x:00:0x:cx:7e:2x (logged in)
Vserver UUID: 2ef579xx-18b5-11xx-bbxx-d039ea903bxx
...
Igroup Comment:
- ONTAPレポートの複数のアダプタがタイムアウトし、複数のホストへの接続が切断されました。
cluster01::> network fcp adapter show -node node1 -adapter Xa
Error: show failed: Timeout while getting fabric information
cluster01::> network fcp adapter show -node node01 -adapter Xb
Error: show failed: Timeout while getting fabric information
MGWD.log
観察されたタイムアウトメッセージ:
例:[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: SAN::FCP::ADAPTER_KERNEL: src/tables/san/fcp_adapter_internal.cc:get_imp:95 returning: 418/24 - Timeout while getting fabric information
[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: SAN::FCP::ADAPTER: src/tables/san/fcp_adapter.cc:get_imp:719 returning: 418/24 - Timeout while getting fabric information
[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: NET::VIF::SAN: src/tables/san/net_vif_san.cc:populateFcpPortmap:991 Failed getting the FCP port on node netapp01 for lif lif01: Timeout while getting fabric information
- ONTAPからのダウン/アップポートは一時的に解決するが、問題は1~2時間後に戻る
- スイッチ側のダウン/アップポートが解決しない
- ホストに次のようなエラーメッセージが記録されることがあります。
May 16 15:41:28 Host_name: qla2xxx [0000:b1:00.0]-5037:11: Async-login failed: handle=d pid=011703 wwpn=XX:XX:XX:XX:XX:XX:XX:XX comp_status=31 iop0=18 iop1=92900