メインコンテンツへスキップ

ノードにのみ接続されているコンソールケーブルでは、健全性のアラート、ノードのリブート、SPへのアクセスの停止、およびフェイルオーバーの中断が発生する場合がある

Views:
195
Visibility:
Public
Votes:
0
Category:
ontap-9
Specialty:
hw
Last Updated:

環境

  • AFFモデル
  • ASAモデル
  • FASモデル
  • ONTAP 9
  • コンソール接続

問題

以下の 1 つ以上の症状が見られる場合があります:

  • 任意のアカウントを使用してSPまたはBMCにSSH接続できない(応答なし)
  • さまざまな誤ったヘルス アラートが報告されることがあり、ハードウェア障害の想定につながる可能性があります:
    • ファンの故障
    • 高温/低温の警告
    • さまざまな「センサーが読めません」メッセージ
    • バッテリーの故障など。
Record 2508: Mon Apr 24 11:01:20 2023 [SP.notice]: SP load is high: 5.22 4.10 2.12 Record 2513: Mon Apr 24 11:03:16 2023 [IPMI.emergency]: triggered OS halt: Multiple fans failed
  • コンソールでのブート中に、重大なIPMIエラーが表示されます:
    [3502 : 3502 CRITICAL][libipmi)AMIOEM.c:10651]Error in switching MUX in raw IPMI command: 6 [3502 : 3502 CRITICAL][solssh.c:832]Failed in MUX switching !!!
  • SSHでのコンソール出力が非常に遅い(「laggy」)または応答しない
  • ONTAPクラスタノードが予期せずリブートする:
    [node_name: spmgrd: callhome.sp.hbt.stopped:alert]: Call home for SP HBT STOPPED
    [node_name: env_mgr: sp.ipmi.lost.shutdown:EMERGENCY]: SP heartbeat stopped and cannot be recovered. To prevent hardware damage and data loss, the system will shut down in 10 minutes.
    [node_name: env_mgr: monitor.shutdown.emergency:EMERGENCY]: Emergency shutdown: Environmental Reason Shutdown (System reboot to recover the BMC)
  • テイクオーバーまたはギブバックの失敗

注:この問題は、115200ボーで実行されているシリアル コンソール ポートを搭載した新しいシステムで発生する可能性が最も高くなります

例:

Log Collection from: SERIALNUM=xxxxxxxxxxx SEQ=31 HOSTNAME=node01-1

================ Log #1 start time Thu Jan  1 00:00:56 1970

================ Log #1 truncated at Wed Apr 29 09:06:18 2020 ?????????????????????????????????????????????????????????????????????????????????????????????!
??????????????????????????????????????????????????????????????!
???????????????????????????????????????????????????????????????????????????????????????????????????!
???????????????????????????????
 ================ Log #1 end time Wed Apr 29 09:06:35 2020

Active IQダッシュボードのAutoSupportログを使用して確認します:

  • SP-LATEST-CONSOLE-LOGSファイルを確認して、上記のように文字化け文字を探します
  • SP-LATEST-RUNTIMEファイルを確認します:
    • "top"サブセクションで、gettyプロセス(ONTAPバージョンに応じてngettyまたはagetty)を見つけ、シリアル ポートアクティビティの兆候と、シリアル ポート過負荷状態の可能性(高いCPU%で示される)を探します:
  PID PPID USER     STAT  VSZ  %VSZ CPU %CPU   COMMAND
  993    1 root    D    6304   2.2%  0 22.4%  /sbin/ngetty 115200 parallel
 2408    1 sysadmin S    1912   2.5   0 23.7%  /sbin/agetty --nohostname -L console 115200 vt100

 
注:getty は、一部の ONTAP バージョンでは Top の下に表示されない場合があります
 
  • "top"または"uptime"サブセクションで、"load average"の値を確認します。
Load average: 5.22 4.10 2.12 13/218 26338 02:10:24 up 76 days, 5:07, 0 users, load average: 5.22, 4.10, 2.12
  • 上記の3つの値は、それぞれ過去1分、5分、15分間のSPの負荷平均を表しています。

Sign in to view the entire content of this KB article.

New to NetApp?

Learn more about our award-winning Support

NetApp provides no representations or warranties regarding the accuracy or reliability or serviceability of any information or recommendations provided in this publication or with respect to any results that may be obtained by the use of the information or observance of any recommendations provided herein. The information in this document is distributed AS IS and the use of this information or the implementation of any recommendations or techniques herein is a customer's responsibility and depends on the customer's ability to evaluate and integrate them into the customer's operational environment. This document and the information contained herein may be used solely in connection with the NetApp products discussed in this document.