高いCPU利用率が原因でActiveIQ Unified Manager 9.13以降が応答しなくなる
環境
- ActiveIQ Unified Manager(AIQUM)9.13以降
- すべてのOSプラットフォーム
問題
- AIQUM 9.13以降が 断続的に応答しなくなる
- サーバを再起動すると、問題がハング状態に戻るまでの数日間は問題が解決されます。
- 問題が発生すると、CPU利用率が急激に上昇します。
ps -eo pcpu,pid,user,args | sort -k 1 -r | head -10
は、JBossユーザとJavaプロセスが100%を超えるCPUを消費していることを示しています(RHEL / OVAの場合)。
- Acquisition / CommVault auxコピージョブなど、AIQUMに関連付けられているすべての種類のジョブが失敗します。
ocumserver.log
スケールDBプールについて、1時間ごとにNullPointerException(NPE)が記録されています。
ERROR [oncommand] [task-scheduler-10] [c.n.s.s.a.DbPoolScaleMonitor] Exception occurred while detecting scale db pool issue:
java.lang.NullPointerException: null
at deployment.dfm-app.war//com.netapp.dfm.common.metrics.MetricsRegistryProvider.getGauge(MetricsRegistryProvider.java:168)
at deployment.dfm-app.war//com.netapp.scalemonitor.service.automation.ScaleMonitorUtils.getDbConnectionData(ScaleMonitorUtils.java:71)
at deployment.dfm-app.war//com.netapp.scalemonitor.service.automation.DbPoolScaleMonitor.detectProblemsAndProvideRecommendation(DbPoolScaleMonitor.java:90)
....
....
journalctl.log
1つまたは複数のソースからのレート制限を超えたエントリが複数あります:
ocum kernel: Rate limit exceeded: IN=eth0 OUT= MAC=<YY:YY:YY:YY:YY:YY:YY:YY:YY:YY:YY:YY:YY>SRC=XX.XX.XX.XX DST=<AIQUM_IP> LEN=52 TOS=0x02 PREC=0x00 TTL=126 ID=9520 DF PROTO=TCP SPT=52199 DPT=443 WINDOW=8192 RES=0x00 CWR ECE SYN URGP=0
ocum kernel: Rate limit exceeded: IN=eth0 OUT= MAC=<YY:YY:YY:YY:YY:YY:YY:YY:YY:YY:YY:YY:YY>SRC=XX.XX.XX.XX DST=<AIQUM_IP> LEN=52 TOS=0x02 PREC=0x00 TTL=126 ID=9591 DF PROTO=TCP SPT=52206 DPT=443 WINDOW=8192 RES=0x00 CWR ECE SYN URGP=0