メインコンテンツへスキップ

ノードメトリクス用のActive IQ Unified Manager REST APIが、ビジー状態のONTAP Webサービスが原因で断続的にゼロサンプルを返す

Views:
7
Visibility:
Public
Votes:
0
Category:
active-iq-unified-manager
Specialty:
OM
Last Updated:

環境

  • Active IQ Unified Manager 9.13以降(AIQUM)
  • REST APIデータソースを使用するONTAP 9.xクラスタ
  • NetApp HarvestやTenable NessusスキャンをONTAPに対して実行する環境

問題

  • AIQUM REST取得は、/api/cluster/nodes/{uuid}/metrics経由で呼び出される1つまたは複数のクラスタ上のノードメトリックに対して、定期的にゼロサンプルを返します。
  • この状態は断続的であり、ONTAPクラスタに対する高い同時REST/HTTP負荷の期間と相関しています(典型的なパターン:平日の午前中、スケジュールされたスキャンウィンドウ付近)。
  • AIQUM Web UIでは、検出やその他のポーリングが成功しているにもかかわらず、パフォーマンスポイントが欠落し、ノードレベルのパフォーマンスグラフにギャップが表示されます。
  • 影響を受けたノード上のONTAPapache_error.logには、次のようなエントリが表示されます:

[mpm_event:error] [pid …] AH00485: scoreboard is full, not at MaxRequestWorkers
[client <ip>] request rejected — wait queue full

tried to access the system and failed with No Web Service has resource

  • Active IQ Unified ManagerクライアントIPと脆弱性スキャナーIPから発信された、短時間のうちに数千件のエラーログエントリが繰り返しバーストする。

原因

  • 各ノードのONTAP Webサービス(httpd)には、同時クライアント処理を制限する2つの制限があります:
    • per-address-limit — 単一のクライアントIPアドレスからの同時接続が許可されます。デフォルト:80
    • wait-queue-capacity — 制限に達すると、接続はキューに格納されます。デフォルト:192
  • 外部ツールがONTAPに対して持続的なREST/HTTP負荷を生成すると同時にActive IQ Unified Managerがポーリングを行うと、アドレスごとのキューと待機キューが飽和状態になります。
  • Active IQ Unified Managerからの新しいREST呼び出し( node-metricsを含む)が拒否されるかタイムアウトし、Active IQ Unified Managerはそのポーリングサイクルでゼロサンプルを記録します。

現場で確認された既知の寄与要因:

  • NetApp Harvestポーラーから、同じクラスターに対して60秒間隔でHarvestポーリングを実行する。
  • 脆弱性スキャナー(例:Nessus)は、毎週スキャンを実行し、数分以内にノードごとに数千件のプローブ要求を発生させる。
  • どちらのスキャナーも通常、AIQUMの毎時のパフォーマンス調査と同じ午前中の時間帯にピークを迎えるため、httpdの待機キューへの負荷が増大する。

解決策

以下の対策のうち、1つ以上を実施してください。これらの対策は互いに補完し合うものです。

1.ONTAP Webサービスの同時負荷を軽減

  • ONTAPクラスタに対するNetApp Harvestの収集を停止または一時停止するか、Harvestのポーリング間隔を60秒から300秒以上に増やしてください。
  • NessusスキャンウィンドウをActive IQ Unified Managerのパフォーマンスポーリングサイクルと重複しないように再スケジュールしてください(少なくとも60~90分のオフセットを設けてください)。

2.すべてのノードでONTAP Webサービスの制限を増やします

クラスターシェルから各ノードで以下のコマンドを実行して、待機キューが同時発生の負荷急増に対応できるようにします:

set -privilege diagnostic

system services web modify -per-address-limit 240 -wait-queue-capacity 576

3.RESTクライアントのタイミングをずらす

  • AIQUM、Harvest、およびカスタムREST スクリプトは、Nessusのスキャンウィンドウと競合しないようにスケジュール設定してください。
  • コレクタの実行時間を少なくとも2~3時間ずらしてください。

検証

  • apache_error.logが影響を受けた期間中にscoreboard is fullまたはwait-queue-full burstsを表示しなくなったことを確認します。
  • 次のポーリングサイクル後、Active IQ Unified Managerノードメトリクスグラフが連続していることを確認します。

パートナーノート

 N/A

追加情報

N/A

内部情報

  • ソースケース:2010670812(Smals/Fsas via Fujitsu — AFF300IN01、FAS8040IN01)。
  • Apache_error分析により、Harvest IP(100.64.157.118 / 100.64.157.119)からの持続的な約2.5 req/sに加えて、毎週月曜日08:15~09:00 UTCにNessus scanner IPバースト(100.64.148.79)が発生し、待機キューが数秒以内に飽和状態になることが確認されました。
  • AFF300IN01-01/02およびFAS8040IN01-C1/C2のapache_errorログ分析により、2026年4月27日と2026年5月4日にわたる2週間のバーストパターンが確認されました。

Sign in to view the entire content of this KB article.

New to NetApp?

Learn more about our award-winning Support

NetApp provides no representations or warranties regarding the accuracy or reliability or serviceability of any information or recommendations provided in this publication or with respect to any results that may be obtained by the use of the information or observance of any recommendations provided herein. The information in this document is distributed AS IS and the use of this information or the implementation of any recommendations or techniques herein is a customer's responsibility and depends on the customer's ability to evaluate and integrate them into the customer's operational environment. This document and the information contained herein may be used solely in connection with the NetApp products discussed in this document.