コントローラが過負荷状態ですか？

最後の更新
PDFとして保存

Views:: 383

Visibility:: Public

Votes:: 0

Category:: ontap-9

Specialty:: perf

Last Updated:

環境

ONTAP 9

回答

この質問に対する回答は、迅速に測定するためのリソースヘッドルーム統計または Active IQ Unified Managerのパフォーマンス容量から決定できます。
リソースヘッドルームの統計には、特定のリソースに対するヘッドルームガイダンスに基づく利用率、処理、レイテンシの詳細が含まれます。
- ワークロードの配置計画
- ワークロードの分散
- リソースのパフォーマンス容量の可視化
- 特定のノードに対して高すぎるワークロードを特定できます。

リソースヘッドルーム

ONTAP リソースヘッドルームオブジェクトの統計情報を使用すると、リソース利用率と、CPUおよびアグリゲートリソースの使用可能なヘッドルームを簡単に把握できます。
- CPUリソースの場合： resource_headroom_cpu
- ストレージアグリゲートリソースの場合： resource_headroom_aggr

current_[ops|latency|utilization] およびそれぞれの optimal_point_* カウンタは、現在の利用率と最適ポイントのポイントインタイム統計を提供します。
- は、 optimal_point 利用率やワークロードが増加するとレイテンシが大幅に増加するポイントです。
- これらのカウンタから物理ヘッドルームまたはパフォーマンス容量を計算できます。
  - 物理的なヘッドルームは、現在の利用率と最適ポイントの差
  - 現在の使用率が最適ポイントを超えると、リソースは「過負荷」と見なされます。
- 信頼係数は、指定されたリソースの最適ポイントの精度を評価するために使用されます。
  - 次の値で示されます。
    - 1-ローシード値が最適なポイントに使用されます。最適ポイントを予測するのに十分なデータがありません。
    - 2-中-最適点を外挿するための一部のデータ。
    - 3-高-最適ポイントに到達またはそれを超える実質的なデータ、それによって「最適ポイント」が知られています。
    - 0- 不明-リソースが使用できないか使用されていないか、データを取得できないような内部エラーが発生しています。

例： CPUリソースとアグリゲートリソースを超えているノードのヘッドルーム統計を表示する

cluster::> set -privilege advanced cluster::*> statistics start -object resource_headroom_cpu|resource_headroom_aggr cluster::*> statistics show -object resource_headroom_cpu -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_cpu Instance: CPU_node_2 Start-time: 6/17/2020 12:31:57 End-time: 6/17/2020 13:31:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1506 optimal_point_ops 1264 current_latency 3761 optimal_point_latency 1446 current_utilization 82 optimal_point_utilization 57 optimal_point_confidence_factor 3 cluster::*> statistics show -object resource_headroom_aggr -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_aggr Instance: DISK_HDD_node_2_aggr1_fb7a0d4f-9d65-4211-b651-b4cd422ee11d Start-time: 6/17/2020 12:37:57 End-time: 6/17/2020 13:37:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1488 optimal_point_ops 1156 current_latency 38924 optimal_point_latency 28913 current_utilization 67 optimal_point_utilization 52 optimal_point_confidence_factor 3

Active IQ のパフォーマンスダッシュボードでは、より多くの期間リソース統計を利用できるため、キャパシティプランニングに役立ちます。
peak_performance グラフ内の指標は、 optimal_point_utilization resource_headroom統計のカウンタを表します。
- Active IQのパフォーマンスグラフの詳細

ワークロード利用率

ワークロードまたはQoS 統計を使用して特定のリソースの量を判断できる詳細
- QoS統計では、ワークロードのリソース利用率をノード単位でポイントインタイム統計で確認できます。

例：ボリュームは vol4test CPUリソースとアグリゲートリソースの両方を大量に消費します。

cluster::> qos statistics volume resource cpu show -node node_1 Workload ID CPU --------------- ----- ----- -total- (400%) - 69% vol4test-wid2.. 23350 69% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 70% vol4test-wid2.. 23350 70% cluster::> qos statistics volume resource disk show -node node_1 Workload ID Disk Number of HDD Disks Disk Number of SSD Disks --------------- ------ ------ ------------------- ------ ------------------- -total- - 32% 26 0% 0 vol4test-wid2.. 23350 92% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 96% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 97% 9 0% 0 -total- - 31% 26 0% 0 vol4test-wid2.. 23350 91% 9 0% 0

追加情報

ノードシェルの wafltop コマンドを使用して、さまざまなリソースを最も消費しているボリュームやワークロードを特定することもできます。
パフォーマンス容量とは