スイッチのホストSFPの障害が原因でESXiホストでパスの冗長性が低下したアラートが表示される
環境
- ONTAP 9
- FC
- ESXi
- Brocade SANスイッチ
問題
複数のNetApp LUNで、ホスト接続の問題、およびNetApp FC LUNのデグレードパスおよび要求切断が発生していました。
- vCenterのVMware側でESXiホストから下記のアラートが報告される-
This email is to notify you that an alarm has been triggered in your vCenter:
[Warning] Alarm alarm.StorageConnectivityAlarm on Host hostabc.xxx.com
because Path redundancy to storage device naa.600a098xxxxxx46c3f515xxxxxxxx degraded. Path vmhba2:C0:xx:xx0 is down. Affected datastores: xxx-NetApp-xyz..
Alarm name alarm.StorageConnectivityAlarm
Description alarm.StorageConnectivityAlarm
Target Host hostabc.xxx.com
Status Warning (previous status: Normal)
Triggered time 04/03/2024 01:27:05 PM
Path redundancy to storage device naa.600a098xxxxxx46c3f515xxxxxxxx degraded. Path vmhba2:C0:T8:L142 is down. Affected datastores: xxx-NetApp-xyz. Warning 04/04/2024, 11:12:40 AM
ストレージ側のLUNがオンラインで、マッピングされている。
FCポートはすべてUpおよび Rxで、Tx値は最適な範囲にあります。
STIO hung cmdイベント(STATE=5) がEMSで報告される:
Wed Apr 03 13:02:34 +0200 [NetApp: fct_tpd_thread_5: fcp.io.status:debug]: STIO Adapter:0g, found hung cmd:0xfffff808ed70a770(state=5, flags=0x0, ctio_sent=1/1,RecvExAddr=0x1217d0, OX_ID=0x125, RX_ID=0xffff,SID=0x4105xx, Cmd[2A], req_q_free:3501)
Wed Apr 03 14:41:09 +0200 [NetApp: fct_tpd_thread_4: fcp.io.status:debug]: STIO Adapter:0h, found hung cmd:0xfffff808ed1d8b38(state=5, flags=0x0, ctio_sent=1/1,RecvExAddr=0x11d570, OX_ID=0x735, RX_ID=0xffff,SID=0x4105xx, Cmd[2A], req_q_free:1321)
注 :「state=5:dataout_wait - FCターゲットが書き込み要求を受け入れたあとにホストからの復帰を待機していますが、想定されるタイムアウト値の範囲内に何も戻らなかったことを示します。」
- これらのSTIOイベントは、2つの特定のSIDから発生していました。
- SANスイッチのホストに接続されているポートの ステータスはLaser_FLTで、SFPに問題があることを示します。
Index Slot Port Address Media Speed State Proto
============================================================
5 1 5 701400 id N16 Laser_Flt FC