ユーザワークロードのCPUボトルネックが原因で読み取りまたは書き込みのレイテンシが高くなる
環境
- AFF & FAS
- ONTAP 9
問題
- ノードに対してパフォーマンス容量アラートがActive IQ Unified Managerからトリガーされる場合があります
- アラーム
IO wait timeがvCenterから報告されます。 - VMwareはアラームを表示します:
Disk high latency issue was observed during the collection window, as the average Disk sec/Transfer is above 50ms, indicating poor disk latency overall.
- CPU利用率が>80%と高い
- ノード1のCPUはユーザ ワークロードが原因で高いが、ノード シェル
sysstat -x 1コマンドで見るとノード2はアイドル状態である - 一部またはすべてのボリュームやLUNで読み取りや書き込みのレイテンシが高くなっている
- ユーザ ワークロードのほとんどが特定のノード上にあり、クラスタのパートナー/他のノードはほとんどアイドル状態または不均衡です
- 高レイテンシとCPU利用率の違反についてActive IQ Unified Managerで表示されるアラートの例を次に示します:
Latency value of 12.2 ms/op on Cluster1_N6 has triggered a WARNING event based on threshold setting of 10.0 ms/opNetApp Node Node-1:kernel:Node-1 is reporting hig CPU utilization of 91.1637%, placing the node into warn state
注:読みやすくするために列は削除しています
Cluster::> node run node1 sysstat -x 1 CPU NFS CIFS HTTP Total Net kB/s Disk kB/s in out read write 89% 22453 0 0 22463 1491948 8098 664188 2631848 86% 22448 0 0 22478 1492337 8121 607184 658216 95% 24478 0 0 24509 1592134 8106 78844 101992 85% 22453 0 0 23134 1492587 8108 810668 2736420 Cluster::> qos statistics volume latency show Workload ID Latency Network Cluster Data Disk QoS NVRAM --------------- ------ ---------- ---------- ---------- ---------- --------- --------- --------- -total- - 136.49ms 99.00us 70.00us 136.17ms 153.00us 0ms 0ms vserver1_vol1.. 4201 206.05ms 130.00us 0ms 205.88ms 44.00us 0ms 0ms