Kubernetes PodがTerminating/BackOff状態のままスタックする(NetAppストレージが利用できない場合)
環境
- NetApp ONTAP(All Flash FAS、AFF-C800、および類似製品)
- Kubernetes用Trident CSIドライバ
- NetApp永続ボリュームを使用するKubernetesクラスタ
問題
バックエンドの NetApp ストレージがオフラインの場合(例:コントローラのパニックや LUN が nvfail 状態になったため)、NetApp 永続ストレージに依存する Kubernetes ポッドは異常な状態(例:Terminating、BackOff)でスタックしたままになり、正常に削除またはリカバリできません。
ログ出力/現象例:
- ポッドは
Terminating状態のまま長期間維持されます。 - ボリュームのマウント試行が繰り返し失敗すると、ポッドは
BackOff状態になります。 - クラスタイベントには、ボリュームのアンマウント失敗またはアクセス不能なストレージが表示されます。
- ストレージコントローラのログには、LUNが
nvfail状態でバックエンドサービスがオフラインであることが示されています。