コントローラが過負荷状態ですか?
環境
ONTAP 9
回答
- この質問に対する回答は 、 迅速に測定するためのリソースヘッドルーム統計または Active IQ Unified Managerのパフォーマンス容量から決定できます。
- リソースヘッドルームの統計 には 、 特定のリソースに対するヘッドルームガイダンスに基づく利用率、処理、レイテンシの詳細が含まれます。
- ワークロードの配置計画
- ワークロードの分散
- リソースの パフォーマンス容量の可視化
- 特定のノードに対して高すぎるワークロードを特定できます。
リソースヘッドルーム
- ONTAP リソースヘッドルームオブジェクトの統計情報を使用すると、 リソース 利用率と、CPUおよびアグリゲートリソースの使用可能なヘッドルームを簡単に把握できます。
- CPUリソースの場合:
resource_headroom_cpu
- ストレージアグリゲートリソースの場合:
resource_headroom_aggr
- CPUリソースの場合:
current_[ops|latency|utilization]
およびそれぞれのoptimal_point_*
カウンタは、現在の利用率 と 最適ポイントのポイントインタイム統計を提供します。- は、
optimal_point
利用率やワークロードが増加する と レイテンシが大幅に増加するポイントです。 - これらのカウンタから物理 ヘッドルームまたはパフォーマンス容量 を計算できます。
- 物理的なヘッドルームは 、現在の利用率と最適ポイントの差
- 現在の使用率 が 最適ポイントを超えると、 リソースは「過負荷」と見なされます。
- 信頼係数は、指定されたリソースの最適ポイントの精度を評価するために使用されます。
- 次の値で示されます。
- 1-ロー シード値が最適なポイントに使用されます。最適ポイントを予測するのに十分なデータがありません。
- 2-中-最適点を外挿するための一部のデータ。
- 3-高-最適ポイントに到達またはそれを超える実質的なデータ、それによって「最適ポイント」が知られています。
- 0- 不明-リソースが使用できないか使用されていないか、データを取得できないような内部エラーが発生しています。
- 次の値で示されます。
- は、
例: CPUリソースとアグリゲートリソースを超えているノードのヘッドルーム統計を表示する
cluster::> set -privilege advanced cluster::*> statistics start -object resource_headroom_cpu|resource_headroom_aggr cluster::*> statistics show -object resource_headroom_cpu -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_cpu Instance: CPU_node_2 Start-time: 6/17/2020 12:31:57 End-time: 6/17/2020 13:31:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1506 optimal_point_ops 1264 current_latency 3761 optimal_point_latency 1446 current_utilization 82 optimal_point_utilization 57 optimal_point_confidence_factor 3 cluster::*> statistics show -object resource_headroom_aggr -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_aggr Instance: DISK_HDD_node_2_aggr1_fb7a0d4f-9d65-4211-b651-b4cd422ee11d Start-time: 6/17/2020 12:37:57 End-time: 6/17/2020 13:37:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1488 optimal_point_ops 1156 current_latency 38924 optimal_point_latency 28913 current_utilization 67 optimal_point_utilization 52 optimal_point_confidence_factor 3
- Active IQ のパフォーマンスダッシュボードでは、より多くの期間リソース統計を利用できるため、 キャパシティプランニングに役立ちます。
peak_performance
グラフ内の指標は、optimal_point_utilization
resource_headroom統計のカウンタを表します。
ワークロード利用率
- ワークロードまたはQoS 統計を使用して特定のリソースの量を判断できる詳細
- QoS統計では、ワークロードのリソース利用率をノード単位でポイントインタイム統計で確認できます。
例: ボリュームは vol4test
CPUリソースとアグリゲートリソースの両方を大量に消費します。
cluster::> qos statistics volume resource cpu show -node node_1 Workload ID CPU --------------- ----- ----- -total- (400%) - 69% vol4test-wid2.. 23350 69% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 70% vol4test-wid2.. 23350 70% cluster::> qos statistics volume resource disk show -node node_1 Workload ID Disk Number of HDD Disks Disk Number of SSD Disks --------------- ------ ------ ------------------- ------ ------------------- -total- - 32% 26 0% 0 vol4test-wid2.. 23350 92% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 96% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 97% 9 0% 0 -total- - 31% 26 0% 0 vol4test-wid2.. 23350 91% 9 0% 0
追加情報
- ノードシェルの wafltop コマンドを使用して 、さまざまなリソースを最も消費しているボリュームやワークロードを特定することもできます。
- パフォーマンス容量とは