CFBMC-6022:Pilot4のハングによるテイクオーバーが原因でBMC FW 13.11でONTAPがシャットダウンする
問題
BMC FW 13.11で稼働しているプラットフォームでハートビートが失われて停止したあとにパートナーノードによってテイクオーバーが実行される
- ONTAPが過去600秒間にサービスプロセッサ(SP)からIPMIハートビートを受信していません
- SPハートビートが停止したことがASUPシステムに通知された
- BMCをリカバリするためにシステムがリブートされました
例:
1/7/2025 20:47:32 node-01 ERROR asup.post.drop: AutoSupport message (HA Group Notification from node-01 (SP HBT MISSED) NOTICE) was not posted to NetApp. The system will drop the message.
1/7/2025 20:16:20 node-02 ERROR mgmtgwd.vreport.nodesUnreachable: Vreport encountered some unreachable nodes. The report may be incomplete.
1/7/2025 20:11:38 node-02 ALERT callhome.sfo.takeover: Call home for CONTROLLER TAKEOVER COMPLETE AUTOMATIC
1/7/2025 20:11:21 node-01 ERROR cf.fsm.takeoverOfPartnerDisabled: Failover monitor: takeover of node-02 disabled (local halt in progress).
1/7/2025 20:11:02 node-01 EMERGENCY monitor.shutdown.emergency: Emergency shutdown: Environmental Reason Shutdown (System reboot to recover the BMC)
1/7/2025 20:01:02 node-01 EMERGENCY sp.ipmi.lost.shutdown: SP heartbeat stopped and cannot be recovered. To prevent hardware damage and data loss, the system will shut down in 10 minutes.
1/7/2025 19:58:39 node-01 ALERT callhome.sp.hbt.stopped: Call home for SP HBT STOPPED
1/7/2025 19:36:33 node-01 ERROR sp.heartbeat.stopped: Have not received a IPMI heartbeat from the Service Processor (SP) in last 600 seconds.