ノードにのみ接続されているコンソールケーブルでは、健全性のアラート、ノードのリブート、SPへのアクセスの停止、およびフェイルオーバーの中断が発生する場合がある
環境
- AFFモデル
- ASAモデル
- FASモデル
- ONTAP 9
- コンソール接続
問題
以下の 1 つ以上の症状が見られる場合があります:
- 任意のアカウントを使用してSPまたはBMCにSSH接続できない(応答なし)
- さまざまな誤ったヘルス アラートが報告されることがあり、ハードウェア障害の想定につながる可能性があります:
- ファンの故障
- 高温/低温の警告
- さまざまな「センサーが読めません」メッセージ
- バッテリーの故障など。
Record 2508: Mon Apr 24 11:01:20 2023 [SP.notice]: SP load is high: 5.22 4.10 2.12 Record 2513: Mon Apr 24 11:03:16 2023 [IPMI.emergency]: triggered OS halt: Multiple fans failed
- コンソールでのブート中に、重大なIPMIエラーが表示されます:
[3502 : 3502 CRITICAL][libipmi)AMIOEM.c:10651]Error in switching MUX in raw IPMI command: 6 [3502 : 3502 CRITICAL][solssh.c:832]Failed in MUX switching !!!
- SSHでのコンソール出力が非常に遅い(「laggy」)または応答しない
- ONTAPクラスタノードが予期せずリブートする:
[node_name: spmgrd: callhome.sp.hbt.stopped:alert]: Call home for SP HBT STOPPED
[node_name: env_mgr: sp.ipmi.lost.shutdown:EMERGENCY]: SP heartbeat stopped and cannot be recovered. To prevent hardware damage and data loss, the system will shut down in 10 minutes.
[node_name: env_mgr: monitor.shutdown.emergency:EMERGENCY]: Emergency shutdown: Environmental Reason Shutdown (System reboot to recover the BMC) - テイクオーバーまたはギブバックの失敗
注:この問題は、115200ボーで実行されているシリアル コンソール ポートを搭載した新しいシステムで発生する可能性が最も高くなります
例:
Log Collection from: SERIALNUM=xxxxxxxxxxx SEQ=31 HOSTNAME=node01-1
================ Log #1 start time Thu Jan 1 00:00:56 1970
================ Log #1 truncated at Wed Apr 29 09:06:18 2020 ?????????????????????????????????????????????????????????????????????????????????????????????!
??????????????????????????????????????????????????????????????!
???????????????????????????????????????????????????????????????????????????????????????????????????!
???????????????????????????????
================ Log #1 end time Wed Apr 29 09:06:35 2020Active IQダッシュボードのAutoSupportログを使用して確認します:
- SP-LATEST-CONSOLE-LOGSファイルを確認して、上記のように文字化け文字を探します
- SP-LATEST-RUNTIMEファイルを確認します:
"top"サブセクションで、gettyプロセス(ONTAPバージョンに応じてngettyまたはagetty)を見つけ、シリアル ポートアクティビティの兆候と、シリアル ポート過負荷状態の可能性(高いCPU%で示される)を探します:
PID PPID USER STAT VSZ %VSZ CPU %CPU COMMAND
993 1 root D 6304 2.2% 0 22.4% /sbin/ngetty 115200 parallel
2408 1 sysadmin S 1912 2.5 0 23.7% /sbin/agetty --nohostname -L console 115200 vt100注:getty は、一部の ONTAP バージョンでは Top の下に表示されない場合があります
"top"または"uptime"サブセクションで、"load average"の値を確認します。
Load average: 5.22 4.10 2.12 13/218 26338 02:10:24 up 76 days, 5:07, 0 users, load average: 5.22, 4.10, 2.12
- 上記の3つの値は、それぞれ過去1分、5分、15分間のSPの負荷平均を表しています。