AFF A250またはFAS500f(BMC 15.4、15.5、15.5P1)でSPハートビートによるシステムシャットダウンが停止した場合
環境
- AFF A250
- FAS500f
- ベースボード管理コントローラ(BMC) 15.4、15.5、15.5P1
問題
- BMC ハートビートが停止したためにノードがリブートした場合:
Sun Jun 13 21:45:49 +0100 [node-01: spmgrd: sp.heartbeat.stopped:error]: Have not received a IPMI heartbeat from the Service Processor (SP) in last 600 seconds.
Sun Jun 13 21:57:32 +0100 [node-01: spmgrd: sp.heartbeat.stopped:error]: Have not received a IPMI heartbeat from the Service Processor (SP) in last 600 seconds.
Sun Jun 13 21:57:32 +0100 [node-01: spmgrd: callhome.sp.hbt.missed:notice]: Call home for SP HBT MISSED
Sun Jun 13 22:09:09 +0100 [node-01: spmgrd: callhome.sp.hbt.stopped:alert]: Call home for SP HBT STOPPED
Sun Jun 13 22:12:16 +0100 [node-01: env_mgr: sp.ipmi.lost.shutdown:EMERGENCY]: SP heartbeat stopped and cannot be recovered. To prevent hardware damage and data loss, the system will shut down in 10 minutes.
Sun Jun 13 22:22:16 +0100 [node-01: env_mgr: monitor.shutdown.emergency:EMERGENCY]: Emergency shutdown: Environmental Reason Shutdown (System reboot to recover the BMC)
- リブートによりパートナーがテイクオーバーを実行
[Node-02: cf_main: cf.fsm.takeover.on.reboot:info]: Failover monitor: One node initiated automatic takeover after detecting that its partner node is rebooting.
- それ以外の場合は、イベントの実行中にノードに何も記録されず、パートナーにのみ次のメッセージが表示されます。
Sat Jan 22 18:11:28 +0100 [node-A: cf_main: cf.fsm.takeover.noHeartbeat:alert]: Failover monitor: Takeover initiated after no heartbeat was detected from the partner node.