私のコントローラは過負荷ですか?
環境
ONTAP 9
回答
- この質問の答えは、リソースヘッドルーム統計による迅速な測定、またはActive IQ Unified Managerのパフォーマンス容量から判断できます
- リソースヘッドルーム統計には、特定のリソースのヘッドルームガイダンスを提供するための、利用率、運用状況、レイテンシの詳細が含まれます:
- ワークロード配置計画
- ワークロードのバランス調整
- リソースのパフォーマンス容量の可視化
- 特定のノードにとって負荷が高すぎるワークロードを特定するのに役立ちます。
リソースヘッドルーム
- ONTAP リソースヘッドルームオブジェクトの統計情報は、CPUおよびアグリゲートリソースのリソース使用率と利用可能なヘッドルームを理解するのに役立ちます。
- CPUリソースの場合:
resource_headroom_cpu。 - ストレージアグリゲートリソースの場合:
resource_headroom_aggr。
- CPUリソースの場合:
current_[ops|latency|utilization]およびそれぞれのoptimal_point_*カウンターは、現在の使用率と最適ポイントのポイントインタイム統計を提供しますoptimal_pointは、利用率やワークロードの増加が、レイテンシの不均衡な増加につながるポイントです。- これらのカウンターから、物理的な余裕や性能容量を計算できます。
- 物理的な余裕とは、現在の利用率と最適点との差のことです
- 現在の利用率が最適点を超えると、そのリソースは「過負荷」とみなされます
- 信頼係数は、特定のリソースに対する最適ポイントの精度を測定するために使用されます。
- 以下の値で表されます:
- 1 - 低 - 最適点にはシード値が使用されます。最適な点を予測するにはデータが不足しています。
- 2 - 中程度 - 最適な点を推定するためのデータがいくつかあります。
- 3 - 高 - 最適点に達するかそれを超える十分なデータがあり、それによって「最適点」が判明する。
- 0 - 不明 - リソースが利用できないか、使用されていないか、または内部エラーが発生してデータを取得できません。
- 以下の値で表されます:
例:CPUとアグリゲートリソースが超過しているノードのヘッドルーム統計を表示する
cluster::> set -privilege advanced cluster::*> statistics start -object resource_headroom_cpu|resource_headroom_aggr cluster::*> statistics show -object resource_headroom_cpu -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_cpu Instance: CPU_node_2 Start-time: 6/17/2020 12:31:57 End-time: 6/17/2020 13:31:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1506 optimal_point_ops 1264 current_latency 3761 optimal_point_latency 1446 current_utilization 82 optimal_point_utilization 57 optimal_point_confidence_factor 3 cluster::*> statistics show -object resource_headroom_aggr -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_aggr Instance: DISK_HDD_node_2_aggr1_fb7a0d4f-9d65-4211-b651-b4cd422ee11d Start-time: 6/17/2020 12:37:57 End-time: 6/17/2020 13:37:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1488 optimal_point_ops 1156 current_latency 38924 optimal_point_latency 28913 current_utilization 67 optimal_point_utilization 52 optimal_point_confidence_factor 3
- より長い期間のリソース統計はActive-IQパフォーマンスダッシュボードから入手できます。これはキャパシティプランニングにより役立ちます。
- グラフの
peak_performanceメトリックは、resource_headroom統計のoptimal_point_utilizationカウンターを表します。- Active-IQパフォーマンスグラフの詳細

ワークロード利用率
- ワークロードまたはQoS統計情報を使用して、特定のリソースの使用量を判断する方法の詳細
- QoS統計は、ノードごとのワークロードのリソース使用率のポイントインタイム統計情報を提供できます
例:ボリュームvol4testは、CPUとアグリゲートリソースの両方を大量に消費しています。
cluster::> qos statistics volume resource cpu show -node node_1 Workload ID CPU --------------- ----- ----- -total- (400%) - 69% vol4test-wid2.. 23350 69% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 70% vol4test-wid2.. 23350 70% cluster::> qos statistics volume resource disk show -node node_1 Workload ID Disk Number of HDD Disks Disk Number of SSD Disks --------------- ------ ------ ------------------- ------ ------------------- -total- - 32% 26 0% 0 vol4test-wid2.. 23350 92% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 96% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 97% 9 0% 0 -total- - 31% 26 0% 0 vol4test-wid2.. 23350 91% 9 0% 0
追加情報
- ノードシェルの使用 wafltop コマンドは、どのボリューム/ワークロードがさまざまなリソースを最も多く消費しているかを特定するためにも使用できます
- パフォーマンスキャパシティとは
- CPU使用率が高い - 解決パス