FlexCache ボリュームがいっぱいになり、NFSクライアント要求が停止しました
環境
- ONTAP 9.5以降
- FlexCache
- NFS
問題
- FlexCacheボリュームが最大99%フルになり、クライアント要求がハングしました。
- NFSクライアントで「ls」や「cd」などの処理が停止しました。
- 元のボリュームがいっぱいにならず、EMSログで以下のエラーが検出されました:
Wed Mar 29 11:27:54 -0700 [nodeA: wafl_exempt10: wafl.vol.full:alert]: Insufficient space on volume vol__0001@vserver:a385f57a-afbd-11ed-91c0-00a098ba0334 to perform operation. 432KB was requested but only 384KB was available.
Wed Mar 29 11:27:55 -0700 [nodeA: wafl_spcd_main: monitor.volume.full:debug]: Volume vol__0001@vserver:a385f57a-afbd-11ed-91c0-00a098ba0334 is full (using or reserving 99% of space and 7% of inodes).
Wed Mar 29 11:27:56 -0700 [nodeA: FgGroupListTimer: fg.space.member.full:alert]: Constituent 1099 in FlexGroup vol (fg-uuid b5a85457-b48e-11ed-948e-00a098dec0b4) is out of space.
Wed Mar 29 11:37:54 -0700 [nodeA: wafl_exempt13: wafl.vol.full:alert]: Insufficient space on volume vol__0001@vserver:a385f57a-afbd-11ed-91c0-00a098ba0334 to perform operation. 424KB was requested but only 380KB was available.
- NFS処理に失敗しました:
Wed Mar 29 11:28:12 -0700 [nodeA: kernel: Nblade.dBladeNoResponse.NFS:error]: File operation timed out because there was no response from the data-serving node. Node UUID: 858edac4-7bd1-11ed-a6ec-00a098dec0b4, file operation protocol: NFS, client IP address: 10.1.2.3, RPC procedure: 17.
- Sktraceは、問題時間に次のように表示されます。
2023-03-29T18:27:55Z 14646667110509780 [13:0] WAFLREMOTE_EXCEPTION: store cache 1089.4389 of origin 2156655294.1853 snapid 0: debt enospc (error 292)
2023-03-29T18:27:55Z 14646667110610864 [13:0] WAFLREMOTE_EXCEPTION: store cache 1089.4389 of origin 2156655294.1850 snapid 0: debt enospc (error 292)
- FlexCacheボリュームの FlexCacheボリュームのデータ削除ポリシーとは何ですか 使用率が90%に達した時点でスクラビングジョブを実行し、データを削除するのが理想的です。しかし、この場合、ボリュームは99%に達しました。