Sick diskによるパフォーマンスへの影響
環境
- 障害ドライブなし
- すでに障害ドライブとなっている単一のドライブには適用されません
- ONTAPはエラーとレイテンシのしきい値に基づいてドライブを障害ドライブにします
問題
- 高ボリューム(FlexVol)のレイテンシが観察されました。
- 一部のシナリオでは、高レイテンシによってNFS切断が発生する場合があります
qos statistics volume latency show
コマンドを実行すると、disk
列にプライマリ遅延が表示されます。例:
::> qos statistics volume latency show -vserver SVM_name -volume vol_name
Workload ID Latency Network Cluster Data Disk QoS Max QoS Min NVRAM ...
--------------- ------ ---------- ---------- ---------- ---------- ---------- ---------- ---------- ---------- ...
workload_name 12345 154.92ms 294.00us 0ms 1115.00us 153.36ms 0ms 0ms 157.00us ...
workload_name 12345 117.39ms 376.00us 0ms 1.59ms 115.27ms 0ms 0ms 157.00us ...
workload_name 12345 110.26ms 391.00us 0ms 1.86ms 107.86ms 0ms 0ms 139.00us ...
...
- RAIDグループで、単一ドライブの利用率とレイテンシが著しく高くなります。例:
::> system node run -node node_name -command "priv set -q advanced; statit -e"
...
disk ut% xfers ureads--chain-usecs writes--chain-usecs cpreads-chain-usecs greads--chain-usecs ...
/aggr1/plex0/rg0:
0a.10.10 31 93.15 0.00 .... . 54.89 26.94 590 38.26 38.85 155 0.00 .... . ...
0a.10.1 33 93.98 0.00 .... . 55.75 26.55 630 38.23 38.83 183 0.00 .... . ...
0a.10.2 19 118.78 9.53 3.50 8515 56.77 10.57 291 52.49 9.60 543 0.00 .... . ...
0a.10.3 21 120.65 10.11 3.80 8440 58.10 10.88 362 52.43 9.50 566 0.00 .... . ...
0a.10.4 20 119.76 9.21 3.27 9108 57.79 10.54 314 52.76 9.44 552 0.00 .... . ...
0a.10.5 100 121.62 10.52 3.22 19375 58.78 10.20 7699 52.32 9.79 4831 0.00 .... . ...
0a.10.6 18 119.96 9.57 3.33 8727 57.97 10.73 216 52.42 9.64 541 0.00 .... . ...
0a.10.7 18 119.06 9.01 3.53 8786 57.71 10.57 223 52.34 9.56 535 0.00 .... . ...
0a.10.8 18 121.28 9.75 3.76 8179 59.29 10.89 235 52.24 9.72 544 0.00 .... . ...
...
- ONTAP events(EMS Logs)で報告されることがあります:
- 障害としてマークされる前に、ドライブでいくつかのエラーや中止が発生しました。例:
... scsi_cmdblk_strthr_admin: scsi.cmd.retrySuccess:debug]: Disk device 3b.51.1L2: request successful after retry ...
... scsi_cmdblk_strthr_admin: scsi.cmd.retrySuccess:debug]: Disk device 3b.51.1L2: request successful after retry ...
... scsi_cmdblk_strthr_admin: scsi.cmd.retrySuccess:debug]: Disk device 3b.51.1L2: request successful after retry ...
... config_thread: raid.disk.delete.drl:debug]: aggregate Disk /aggr_name/plex0/rg0/ [...] Deleting dirty region log ...
- アグリゲート内の「long」整合ポイント(CP)例:
wafl_exempt08: wafl.cp.toolong:error]: Aggregate aggr_name experienced a long CP.
- Storage Health Monitor IO レイテンシ(
shm.threshold.ioLatency
)。例:
[Cluster-01: disk_latency_monitor: shm.threshold.ioLatency:debug]: Disk XX.XX.XX has exceeded the expected IO latency in the current window with average latency of 50 msecs and average utilization of 100 percent. Highest average IO latency: XX.XX.: 50 msecs; next highest IO latency: XX.XX.XX: 6 msecs. Disk XX.XX.XX Shelf X Drawer X Slot X Bay XX [NETAPP X375_TTCRE04TA07 NA03] S/N [#########]