LUNの一括削除後のシステムパフォーマンスの低下
環境
- NetApp AFF-A300
- ONTAP 9.13.1P9(Cluster Mode)
- iSCSIプロトコル環境
- 大量のLUN削除とアグリゲート使用率の高さが発生しているシステム
問題
- 多数の LUN が削除され(~106TB、アグリゲートの~40%)、その結果:
- 高いCPU使用率(バックグラウンド削除ワークロードが30%に急増)
- WAFL_CP(整合性ポイント)ワークロードが約50%に上昇
- クライアントワークロードの大幅なレイテンシ(WAFLSuspOtherレイテンシが数百秒)
- 多数のインスタンスでタイムアウトが発生し、ボリュームへのアクセスに失敗
- EMSログの例:
Mon Dec 01 1:00:00+0000 [Node01:VdomAsyncTh_03:LUN.destroy:notice]: LUN /vol/vol_01/volume-d7s8d9s0-d8s7-7744-7283-875b7b6b9b5b destroyed (UUID:d7s8d9s0-d8s7-7744-7283-875b7b6b9b5b). - 業務への影響:影響を受けたクライアントは、書き込み/読み取りでボリュームにアクセスできません。