AFF A700sノードで、SP HBTが停止し、緊急シャットダウンによりBMCがリカバリされたと報告される
環境
- AFF A700s
- BMC(ベースボード管理コントローラ)
問題
- ONTAP のアップグレード後、ノードはBMCの自動更新を試行します
- 1つ以上のノードで自動更新が失敗する:
[cluster-01: servprocd: sp.servprocd.upd.evts:debug]: params: {'reason': 'BMC update - Pre-update checks passed.'}[cluster-01: servprocd: sp.servprocd.upd.evts:debug]: params: {'reason': 'SP Firmware network update from 1.89 to 1.91 has been triggered.'}[cluster-01: servprocd: sp.servprocd.upd.unexpt.evts:debug]: params: {'reason': 'BMC update - Update failed after timeout.'}[cluster-01: servprocd: sp.servprocd.upd.error:error]: SP update error: SP firmware update failure has been detected.[cluster-01: servprocd: sp.servprocd.upd.unexpt.evts:debug]: params: {'reason': 'BMC update pre-update checks failed.'}[cluster-01: servprocd: sp.servprocd.upd.error:error]: SP update error: SP firmware update failure has been detected.- その結果、SPのAutoSupport 通知が失われ、ハートビートが停止します
[cluster-01: env_mgr: callhome.sp.hbt.missed:notice]: Call home for SP HBT MISSED[cluster-01: env_mgr: callhome.sp.hbt.stopped:alert]: Call home for SP HBT STOPPED- この状態が数日間続くと、ノードは停止し、BMC経由でリモートからアクセスできなくなります。
[cluster-01: env_mgr: monitor.shutdown.emergency:EMERGENCY]: Emergency shutdown: Environmental Reason Shutdown (System reboot to recover the BMC)- ノードへのコンソール接続が「BMC」ログを示していない(
system log consolesystem log console baksystem log sel、がすべて空であるか、1つのエントリしか含まれていない) - ノードをLOADERからブートしようとすると、次のような結果になります。
***************************************************This platform is not supported in this release.The system will now halt***************************************************