RWX PVC の I/O エラーにより、OpenShift アップグレード中に VM が一時停止状態になります
環境
- NetApp Trident 25.06.0以前のバージョン
- NVMe over TCP(NVMe/TCP)
- Red Hat OpenShift Virtualization
問題
PersistentVolumeClaim
(PVC)がTrident NVMeストレージをバックエンドとしてノードから公開解除されると、別のノードにアクティブなホストNQNがマッピングされていても、Tridentコントローラが関連するNVMeサブシステムを誤って削除する場合があります。
コントローラのログには、Unpublishの呼び出しが受信され、その後サブシステムの削除が行われたことが示されています。
time="2025-06-21T18:17:57Z" level=trace msg=">>>> Unpublish" NVMeNamespaceUUID=19fff211-f919-42af-b18b-8d9615895043 NVMeSubsystemUUID=c0542fc1-4ec1-11f0-a9eb-d039ea5bf75b hostNQN="nqn.2014-08.org.nvmexpress:uuid:xxxx" method=Unpublish
...
DELETE /api/protocols/nvme/subsystems/c0542fc1-4ec1-11f0-a9eb-d039ea5bf75b?allow_delete_with_hosts=true
<<<<<<<<<<<<<< Subsystem Deleted >>>>>>>>>>>>>>
以降のクエリで、別のNQNがまだ同じサブシステムにマッピングされていることが確認されました:
"records": [
{
"nqn": "nqn.2014-08.org.nvmexpress:uuid:yyyy"
}
],
"num_records": 1
その結果、サブシステムが途中で削除され、I/Oエラーが発生します。仮想マシンなどのワークロードの場合、これによって一時停止状態になることがあります。