シャーシ内の複数のブレードでFCPターゲットおよびパスが失われた場合
環境
- ONTAP 9
- HPE Synergy
- Brocade Fabric OS 9.1
- VMware ESXi
問題
- さまざまなESXiホスト(HPE Synergyシャーシ内のブレード)での散発的および断続的なパスおよびターゲットの喪失
- ONTAP は、関連するイニシエータがログインされていないことを確認影響を受けるイニシエータとLIFは数分ごとに変更される可能性があり
::*> fcp ping-igroup show -vserver SVM -igroup * -ext-status wwpn-not-logged_in
(vserver fcp ping-igroup show)
Igroup Logical Node Ping Extended
Vserver Name WWPN Interface Name Status Status
--------- ----------- -------------- ---------- --------- -------- -----------
SVM
SYNERGYESXGRP1 20:00:xx:xx:xx:xx:xx:29 SVM_fc07 NODEA12 reachable wwpn-not-logged_in
SYNERGYESXGRP2 20:00:xx:xx:xx:xx:xx:09 SVM_fc07 NODEA12 reachable wwpn-not-logged_in
SYNERGYESXGRP4 20:00:xx:xx:xx:xx:xx:01 SVM_fc02 NODEA11 reachable wwpn-not-logged_in
SYNERGYESXGRP4 20:00:xx:xx:xx:xx:xx:01 SVM_fc04 NODEA12 reachable wwpn-not-logged_in
SYNERGYESXGRP7 20:00:xx:xx:xx:xx:xx:31 SVM_fc02 NODEA11 reachable wwpn-not-logged_in
SYNERGYESXGRP8 20:00:xx:xx:xx:xx:xx:31 SVM_fc04 NODEA12 reachable wwpn-not-logged_in
- イニシエータはログイン済みと確認されることもありますが、関連するホストではターゲットに到達できず、稼働していないパスもあります
- EMS/
Ext_Status 0x16
のエラーを含むWQEevent log show
fcp.io.status: STIO Adapter:2a IO WQE failure, Handle 0x5, Type 8, S_ID: 10902, VPI: 259, OX_ID: 24C, Status 0x3 Ext_Status 0x16
command termination hung
SRAMダンプによるFCホストバスターゲットアダプタのリセット(通常は複数のストレージコントローラに接続されているとは限りません)
::> event log show -severity debug -event *fcp.io.status*hung*|*SRAM*
Time Node Severity Event
------------------- ---------------- ------------- ---------------------------
12/21/2022 12:44:48 NODEA12 DEBUG scsitarget.fcp.dump: FCP target SRAM dump generated for adapter 2a, fct_tpd_check_hung_commands: Command termination hung. cmd:0xfffff80917a41c60 (state=0xa, flags=0x2,ctio_sent=2/2, RecvExAddr=0x1aec, OX_ID=0x72, RX_ID=0xffff, SID=0x10902)
12/21/2022 12:44:48 NODEA12 DEBUG fcp.io.status: STIO Adapter:2a, found hung cmd:0xfffff80917a41c60(state=10, flags=0x2, ctio_sent=2/2,RecvExAddr=0x1aec, OX_ID=0x72, RX_ID=0xffff,SID=0x10902, Cmd[28], req_q_free:0)
12/21/2022 11:56:38 NODEA12 DEBUG fcp.io.status: STIO Adapter:1a, found hung cmd:0xfffff8090d1a4010(state=5, flags=0x0, ctio_sent=1/1,RecvExAddr=0x14ef, OX_ID=0x264, RX_ID=0xffff,SID=0x10902, Cmd[2A], req_q_free:0)
12/21/2022 11:55:51 NODEA11 DEBUG scsitarget.fcp.dump: FCP target SRAM dump generated for adapter 2a, fct_tpd_check_hung_commands: Command termination hung. cmd:0xfffff80917b392f8 (state=0xa, flags=0x2,ctio_sent=2/3, RecvExAddr=0x146e, OX_ID=0x178, RX_ID=0xffff, SID=0x10c03)
12/21/2022 11:55:46 NODEA11 DEBUG fcp.io.status: STIO Adapter:2a, found hung cmd:0xfffff80917b392f8(state=7, flags=0x0, ctio_sent=1/2,RecvExAddr=0x146e, OX_ID=0x178, RX_ID=0xffff,SID=0x10c03, Cmd[8A], req_q_free:0)
5 entries were displayed.
- Brocadeスイッチで
c3timeout
は、ホストポートのTXを増やし、ストレージポートのRXを増やすと、エンドデバイスが輻輳していることがわかります
- 実行
statsclear
- 15分待ちます
- 実行
porterrshow
例:
FID128:admin> porterrshow 8-13
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs uncor
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err err
8: 4.8m 8.4m 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
9: 1.1k 1.1k 0 0 0 0 0 0 0 717 0 0 0 0 0 717 0 0 0
10: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
11: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
12: 3.9m 6.8m 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
13: 976 1.2k 0 0 0 0 0 0 0 840 0 0 0 0 0 840 0 0 0
FID128:admin> porterrshow 20-23
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs uncor
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err err
20: 6.7m 7.6m 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
21: 3.9m 2.5m 0 0 0 0 0 0 0 518 0 0 0 0 0 0 259 0 0
22: 3.9m 2.5m 0 0 0 0 0 0 0 974 0 0 0 0 0 0 487 0 0
23: 6.4m 3.0m 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
- SFPの読み取り値は、ストレージとスイッチ(Synergyポートに対する良いTX/RX)で正常です