コントローラが過負荷状態ですか?
環境
ONTAP 9
回答
- この質問の回答 は 、リソースヘッドルームの統計から 判断して、 Active IQ Unified Manager からすばやく測定したり、パフォーマンス容量を判断したりできます
- リソースヘッドルームの統計には、個々のリソースについて、ヘッドルームのガイダンスに基づいて次のような利用率、処理、レイテンシの詳細が含まれます。
- ワークロードの配置計画
- ワークロードの分散
- リソースのパフォーマンス容量を可視化
- 特定のノードに対して負荷が高いワークロードを特定する。
リソースヘッドルーム
- ONTAP リソースヘッドルームオブジェクトの統計情報を使用すると、リソース利用率と、CPUリソースとアグリゲートリソースの使用可能なヘッドルームを把握することができます。
- CPUリソースの
resource_headroom_cpu
場合: - ストレージアグリゲートリソースの
resource_headroom_aggr
場合:
- CPUリソースの
current_[ops|latency|utilization]
optimal_point_*
とそれぞれのカウンタは、現在の利用率と最適ポイントのポイントインタイム統計を提供しますoptimal_point
は、利用率やワークロードの増加に比例してレイテンシの増加が大きくなるポイントです。- これらのカウンタから、物理ヘッドルームまたはパフォーマンス容量を計算できます
- 物理ヘッドルームは、現在の利用率と最適ポイントの差です
- 現在の使用率が最適ポイントを超えると、リソースは「過負荷」とみなされます。
- 信頼係数は、特定のリソースに最適な点の精度をゲージするために使用されます。
- 次の値で示されます。
- 1- Low -最適ポイントにシード値が使用されます。最適ポイントを予測するのに十分なデータがありません。
- 2-中-最適ポイントを外挿するためのデータがいくつかあります。
- 3-最適ポイントに到達するか、それを超える大量のデータがあるため、「最適ポイント」が既知です。
- 0 -不明-リソースが使用できないか使用されていません。またはデータを取得できない内部エラーがあります。
- 次の値で示されます。
例: CPUリソースとアグリゲートリソースを超えているノードのヘッドルーム統計を表示する
cluster::> set -privilege advanced cluster::*> statistics start -object resource_headroom_cpu|resource_headroom_aggr cluster::*> statistics show -object resource_headroom_cpu -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_cpu Instance: CPU_node_2 Start-time: 6/17/2020 12:31:57 End-time: 6/17/2020 13:31:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1506 optimal_point_ops 1264 current_latency 3761 optimal_point_latency 1446 current_utilization 82 optimal_point_utilization 57 optimal_point_confidence_factor 3 cluster::*> statistics show -object resource_headroom_aggr -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_aggr Instance: DISK_HDD_node_2_aggr1_fb7a0d4f-9d65-4211-b651-b4cd422ee11d Start-time: 6/17/2020 12:37:57 End-time: 6/17/2020 13:37:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1488 optimal_point_ops 1156 current_latency 38924 optimal_point_latency 28913 current_utilization 67 optimal_point_utilization 52 optimal_point_confidence_factor 3
- Active IQ のパフォーマンスダッシュボードでは、リソースの統計情報をより詳細に表示できるため、キャパシティプランニングに役立ちます。
peak_performance
グラフ内optimal_point_utilization
の指標は、resource_headroom統計のカウンタを表します。
ワークロード利用率
- 所定のリソースの使用量は、ワークロードまたはQoSの統計を使用して決定できます
- QoS統計では、ワークロードのリソース利用率のポイントインタイム統計をノード単位で提供できます
例 :ボリューム vol4test
はCPUとアグリゲートの両方のリソースを大量に消費しています。
cluster::> qos statistics volume resource cpu show -node node_1 Workload ID CPU --------------- ----- ----- -total- (400%) - 69% vol4test-wid2.. 23350 69% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 70% vol4test-wid2.. 23350 70% cluster::> qos statistics volume resource disk show -node node_1 Workload ID Disk Number of HDD Disks Disk Number of SSD Disks --------------- ------ ------ ------------------- ------ ------------------- -total- - 32% 26 0% 0 vol4test-wid2.. 23350 92% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 96% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 97% 9 0% 0 -total- - 31% 26 0% 0 vol4test-wid2.. 23350 91% 9 0% 0
追加情報
- node shellwafltopコマンドを使用すると、さまざまなリソースを消費しているボリュームやワークロードを特定する際にも役立ちます
- パフォーマンス容量とは