AFF A700sノードで、SP HBTが停止し、緊急シャットダウンによりBMCがリカバリされたと報告される
環境
- AFF A700s
- BMC(ベースボード管理コントローラ)
問題
- ONTAP のアップグレード後、ノードはBMCの自動更新を試行します
- 1つ以上のノードで自動更新が失敗する:
[cluster-01: servprocd: sp.servprocd.upd.evts:debug]: params: {'reason': 'BMC update - Pre-update checks passed.'}
[cluster-01: servprocd: sp.servprocd.upd.evts:debug]: params: {'reason': 'SP Firmware network update from 1.89 to 1.91 has been triggered.'}
[cluster-01: servprocd: sp.servprocd.upd.unexpt.evts:debug]: params: {'reason': 'BMC update - Update failed after timeout.'}
[cluster-01: servprocd: sp.servprocd.upd.error:error]: SP update error: SP firmware update failure has been detected.
[cluster-01: servprocd: sp.servprocd.upd.unexpt.evts:debug]: params: {'reason': 'BMC update pre-update checks failed.'}
[cluster-01: servprocd: sp.servprocd.upd.error:error]: SP update error: SP firmware update failure has been detected.
- その結果、SPのAutoSupport 通知が失われ、ハートビートが停止します
[cluster-01: env_mgr: callhome.sp.hbt.missed:notice]: Call home for SP HBT MISSED
[cluster-01: env_mgr: callhome.sp.hbt.stopped:alert]: Call home for SP HBT STOPPED
- この状態が数日間続くと、ノードは停止し、BMC経由でリモートからアクセスできなくなります。
[cluster-01: env_mgr: monitor.shutdown.emergency:EMERGENCY]: Emergency shutdown: Environmental Reason Shutdown (System reboot to recover the BMC)
- ノードへのコンソール接続が「BMC」ログを示していない(
system log console
system log console bak
system log sel
、がすべて空であるか、1つのエントリしか含まれていない) - ノードをLOADERからブートしようとすると、次のような結果になります。
***************************************************
This platform is not supported in this release.
The system will now halt
***************************************************