Trident 26.02 へのアップグレード後に PVC のサイズ変更とプロビジョニング操作がハングする
環境
- NetApp Trident 26.02(特にiSCSI ONTAP SANバックエンドを使用する場合)
- OpenShift 4.xクラスタ(例:4.18.34)
- 動的なPVCプロビジョニングと拡張にTridentを使用する環境
問題
Trident 26.02へのアップグレード後、以下の症状が発生します:
すべてのPersistentVolumeClaim(PVC)のサイズ変更操作がハングし、
FileSystemResizePendingまたは同様の状態のままになります。クローン/テンプレートから新しい PVC をプロビジョニングすると(特に 100 GB を超える場合)失敗し、PVC が
PendingまたはPrepClaimInProgressでスタックします。関連するポッド(例:CDI準備ポッド)が
ContainerCreatingでスタックする。Tridentノードログには、次のようなエラーが繰り返し表示されます:
Unable to expand volume devicePath=/dev/dm-29 error="rpc error: code=Internal desc=failed to remediate paths for LUN7; paths missing for LUN7; current paths: [...] ; expected portals: [...]"
追加のログエントリには次のものが含まれる場合があります:
Retried locked snapshot delete, clone split timer not yet expired.
右記の
GRPC error: rpc error: code=Internal desc=failed to remediate paths for LUNx; paths missing for LUNx; current paths: [...] ; expected portals: [...]
既存のPVCのサイズ変更を試みると、次のようなイベントで
FileSystemResizePendingの状態のままになります:Warning ExternalExpanding volume_expand waiting for an external controller to expand this PVC
Tridentのアップグレード直後に問題が発生し、本番ワークロードに影響します。