ワークロードによる突発的なレイテンシとCPU利用率
環境
- ONTAP 9
- ONTAP Select v9.12.1以降
- FAS/AFFシステム
- Cluster Volume ONTAP(CVO)
問題
- Central Processing Unit(CPU)が高く、100%近くまたは100%で推移し続ける、または想定レベルを上回るCPU使用率の増加が見られることがあり、これはファームウェアアップグレードプロセス中にノードのテイクオーバーやギブバック時にも確認できます
- ノードでパフォーマンス容量アラートがトリガーされました.
- Write Anywhere File Layout(WAFL)
WAFL_Ex
は、最も負荷の高いドメイン(Data Processingが行われる場所)の1つである可能性があります. - ホストが、1日の特定の時間帯に高いIO待機時間を報告します。
- コマンド
sysstat -M 1
を使用して最も負荷の高いドメインを確認できます。 - Network File System(NFS)クライアントの場合、「NFSサーバ not responding」エラーで示されることがあります。
- クラスタがActive IQ Unified Managerによって監視されている場合、次のアラートがトリガーされます。
Incident - Node Utilization Critical Threshold Breached
Impact Area - Performance
Severity - Critical
State - New
Source - Cluster01-02
Cluster Name - Cluster01
Cluster FQDN - 10.0.0.X
Trigger Condition - Utilization value of 98% on Cluster01-02 has triggered a CRITICAL event based on threshold setting of 90%.
- Virtual Desktop Infrastructure(VDI)ユーザは、影響を受けるボリュームについて、Active IQグラフで読み取り / 書き込み / その他のレイテンシ問題を経験します。
例: sysstat
出力はユーザワークロードの増加によるCPUの上昇を示しています(読みやすくするために列は省略しています)
Cluster::> node run -node <node> -command sysstat -x 1 CPU NFS CIFS HTTP Total Net kB/s HDD kB/s in out read write 11% 1324 0 0 1324 169 131 5300 0 28% 72 0 0 72 483 526 4928 12 53% 175 0 0 175 254 407 5176 24 23% 143 0 0 143 146 72 4752 0 12% 230 0 0 230 134 259 5808 24 40% 5766 0 0 5766 207 720 44336 36956 53% 108 0 0 108 15698 14391 32340 24 46% 30 0 0 30 30975 30269 29900 0 87% 32124 0 0 32124 576397 53287 203513 12 99% 44334 0 0 44334 659406 45518 256931 251353 99% 43692 0 0 43692 609739 16930 263599 565448 99% 44492 0 0 44492 633509 41562 261366 116257