メインコンテンツまでスキップ

コントローラが過負荷状態ですか?

Views:
16
Visibility:
Public
Votes:
0
Category:
ontap-9
Specialty:
perf
Last Updated:

に適用されます

  • ONTAP 9

回答

この質問の回答 は、リソースヘッドルームの統計から判断できます。

  • リソースヘッドルーム統計には、特定のリソースのヘッドルームガイダンスに関連した、利用率、処理、レイテンシの詳細が含まれます。キョカ
    • ワークロードの配置計画
    • リソースのパフォーマンス容量を可視化
    • 特定のノードに対して高すぎるワークロードを特定します。
リソースヘッドルーム

1. ONTAP リソースヘッドルームオブジェクトの統計情報を使用すると、リソースの利用率と、 CPU およびアグリゲートのリソースに使用可能なヘッドルームを把握できます。  

  • CPU リソースの場合resource_headroom_cpu
  • ストレージアグリゲートリソースのresource_headroom_aggr場合:

 

2.current_[ops|latency|utilization]optimal_point_*とそれぞれのカウンタは、現在の使用率と最適ポイントのポイントインタイム統計情報を提供します

  • optimal_pointは、利用率やワークロードの増加に比例してレイテンシの増加が大きくなるポイントです。
  • これらのカウンタから、物理的なヘッドルームまたはパフォーマンス容量を計算できます
    • 物理ヘッドルームは、現在の使用率と最適なポイントの差です 
    • 現在の使用率が最適ポイントを超えると、リソースは「過負荷」とみなされます。
  • 信頼係数は、指定したリソースの最適なポイントの精度を示すために使用されます。
    • 次の値で示されます。
      • 1 :最適なポイントには低シード値が使用されます。最適なポイントを予測するのに十分なデータがありません。
      • 2-Medium :最適なポイントを推定するデータ。
      • 3 :最適なポイントに到達するか、それを超える大量のデータが存在するため、「最適なポイント」が判明しています。 
      • 0- 不明 - リソースが使用できないか、使用されていないか、データを取得できない内部エラーがあります。 

 

3. resource_headroom 統計を表示する方法については、次の例を参照してください。

  • 次の例から、 CPU リソースとアグリゲートリソースの両方が超過していることがわかります
  • 使用率が Optimal_Point を超えた場合は、ワークロードを削減または分散する手順を実行する必要があります。
 cluster::> set -privilege advanced cluster::*> statistics start -object resource_headroom_cpu|resource_headroom_aggr cluster::*> statistics show -object resource_headroom_cpu -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_cpu Instance: CPU_node_2 Start-time: 6/17/2020 12:31:57 End-time: 6/17/2020 13:31:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1506 optimal_point_ops 1264 current_latency 3761 optimal_point_latency 1446 current_utilization 82 optimal_point_utilization 57 optimal_point_confidence_factor 3 cluster::*> statistics show -object resource_headroom_aggr -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_aggr Instance: DISK_HDD_node_2_aggr1_fb7a0d4f-9d65-4211-b651-b4cd422ee11d Start-time: 6/17/2020 12:37:57 End-time: 6/17/2020 13:37:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1488 optimal_point_ops 1156 current_latency 38924 optimal_point_latency 28913 current_utilization 67 optimal_point_utilization 52 optimal_point_confidence_factor 3 

4. Active IQ のパフォーマンスダッシュボードでは、より高い期間のリソース統計を利用でき、キャパシティプランニングに便利です。

clipboard_e7dffc72a721ca12fee1a99506202e982.png

ワークロード利用率
  • ワークロードまたは QoS 統計を使用して、特定のリソースをどの程度決定できるかの詳細
    • QoS 統計は、ノード単位でワークロードのリソース使用率のポイントインタイム統計を提供できます 
    • 次の例では、ボリューム vol4 のテストは、 CPU リソースとアグリゲート HDD リソースの両方を大量に消費しています。
 cluster::> qos statistics volume resource cpu show -node node_1 Workload ID CPU --------------- ----- ----- -total- (400%) - 69% vol4test-wid2.. 23350 69% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 70% vol4test-wid2.. 23350 70% cluster::> qos statistics volume resource disk show -node node_1 Workload ID Disk Number of HDD Disks Disk Number of SSD Disks --------------- ------ ------ ------------------- ------ ------------------- -total- - 32% 26 0% 0 vol4test-wid2.. 23350 92% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 96% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 97% 9 0% 0 -total- - 31% 26 0% 0 vol4test-wid2.. 23350 91% 9 0% 0 

 

追加情報

  • node shellwafltopコマンドを使用すると、さまざまなリソースを消費しているボリュームやワークロードを特定する際にも役立ちます
  • パフォーマンス容量とは