ノードメトリクス用のActive IQ Unified Manager REST APIが、ビジー状態のONTAP Webサービスが原因で断続的にゼロサンプルを返す
環境
- Active IQ Unified Manager 9.13以降(AIQUM)
- REST APIデータソースを使用するONTAP 9.xクラスタ
- NetApp HarvestやTenable NessusスキャンをONTAPに対して実行する環境
問題
- AIQUM REST取得は、
/api/cluster/nodes/{uuid}/metrics経由で呼び出される1つまたは複数のクラスタ上のノードメトリックに対して、定期的にゼロサンプルを返します。 - この状態は断続的であり、ONTAPクラスタに対する高い同時REST/HTTP負荷の期間と相関しています(典型的なパターン:平日の午前中、スケジュールされたスキャンウィンドウ付近)。
- AIQUM Web UIでは、検出やその他のポーリングが成功しているにもかかわらず、パフォーマンスポイントが欠落し、ノードレベルのパフォーマンスグラフにギャップが表示されます。
- 影響を受けたノード上のONTAP
apache_error.logには、次のようなエントリが表示されます:
[mpm_event:error] [pid …] AH00485: scoreboard is full, not at MaxRequestWorkers
[client <ip>] request rejected — wait queue full
tried to access the system and failed with No Web Service has resource
- Active IQ Unified ManagerクライアントIPと脆弱性スキャナーIPから発信された、短時間のうちに数千件のエラーログエントリが繰り返しバーストする。
原因
- 各ノードのONTAP Webサービス(httpd)には、同時クライアント処理を制限する2つの制限があります:
per-address-limit— 単一のクライアントIPアドレスからの同時接続が許可されます。デフォルト:80。wait-queue-capacity— 制限に達すると、接続はキューに格納されます。デフォルト:192。
- 外部ツールがONTAPに対して持続的なREST/HTTP負荷を生成すると同時にActive IQ Unified Managerがポーリングを行うと、アドレスごとのキューと待機キューが飽和状態になります。
- Active IQ Unified Managerからの新しいREST呼び出し(
node-metricsを含む)が拒否されるかタイムアウトし、Active IQ Unified Managerはそのポーリングサイクルでゼロサンプルを記録します。
現場で確認された既知の寄与要因:
- NetApp Harvestポーラーから、同じクラスターに対して60秒間隔でHarvestポーリングを実行する。
- 脆弱性スキャナー(例:Nessus)は、毎週スキャンを実行し、数分以内にノードごとに数千件のプローブ要求を発生させる。
- どちらのスキャナーも通常、AIQUMの毎時のパフォーマンス調査と同じ午前中の時間帯にピークを迎えるため、httpdの待機キューへの負荷が増大する。
解決策
以下の対策のうち、1つ以上を実施してください。これらの対策は互いに補完し合うものです。
1.ONTAP Webサービスの同時負荷を軽減
- ONTAPクラスタに対するNetApp Harvestの収集を停止または一時停止するか、Harvestのポーリング間隔を60秒から300秒以上に増やしてください。
- NessusスキャンウィンドウをActive IQ Unified Managerのパフォーマンスポーリングサイクルと重複しないように再スケジュールしてください(少なくとも60~90分のオフセットを設けてください)。
2.すべてのノードでONTAP Webサービスの制限を増やします
クラスターシェルから各ノードで以下のコマンドを実行して、待機キューが同時発生の負荷急増に対応できるようにします:
set -privilege diagnostic
system services web modify -per-address-limit 240 -wait-queue-capacity 576
3.RESTクライアントのタイミングをずらす
- AIQUM、Harvest、およびカスタムREST スクリプトは、Nessusのスキャンウィンドウと競合しないようにスケジュール設定してください。
- コレクタの実行時間を少なくとも2~3時間ずらしてください。
検証
apache_error.logが影響を受けた期間中にscoreboard is fullまたはwait-queue-full burstsを表示しなくなったことを確認します。- 次のポーリングサイクル後、Active IQ Unified Managerノードメトリクスグラフが連続していることを確認します。
パートナーノート
N/A
追加情報
N/A
内部情報
- ソースケース:2010670812(Smals/Fsas via Fujitsu — AFF300IN01、FAS8040IN01)。
- Apache_error分析により、Harvest IP(
100.64.157.118/100.64.157.119)からの持続的な約2.5 req/sに加えて、毎週月曜日08:15~09:00 UTCにNessus scanner IPバースト(100.64.148.79)が発生し、待機キューが数秒以内に飽和状態になることが確認されました。 - AFF300IN01-01/02およびFAS8040IN01-C1/C2のapache_errorログ分析により、2026年4月27日と2026年5月4日にわたる2週間のバーストパターンが確認されました。