ONTAPクラスタにおけるハードウェア障害時のiSCSI停止と自動ギブバック
環境
- NetApp ONTAP 9.11.1P9以上
- AFF-A250
- iSCSIプロトコルを使用するClustered ONTAP環境
- iSCSI経由で接続されたVMware ESXiホスト
問題
- コントローラのPCIアダプタ障害とデータ パスの停止による自動ギブバックの発生時に、VMwareホストでiSCSI停止が発生しました。
- 影響を受けたVMでは、I/Oタイムアウトが原因でファイルシステムが読み取り専用に切り替わり、影響を受けたコントローラが停止するまで断続的なI/O障害が継続しました。
関連するログ出力:
event log show -severity '*' | grep -iE 'panic|emergency|error|giveback|takeover|alert|debug [node_1: vifmgr: vifmgr.cluscheck.droppedall:alert]: Total packet loss when pinging from cluster lif 123 (node node_1) to cluster lif 123 (node node_2). [Node1_:cfdisk_config:cf.diskinventory.sendFailed:debug]:params:{'reason':'HAInterconnectdown','errorCode':'0'} [Node1_:vifmgr:vifmgr.cluscheck.droppedall:alert]:Total packet loss when pinging from cluster LIF ... [Node1_:statd:callhome.hainterconnect.down:alert]:Callhome for HAINTERCONNECTDOWN due to all links are down. [Node_1: vifmgr: vifmgr.lifdown.noports:alert]: LIF iscsi_123 (on virtual server 3), IP address 123, currently cannot be hosted on node node_1, port e1a_123, or any of its failover targets, and is being marked as down.