CFBMC-3996: BMC 13.10P1 で SP HBT STOPPED によりノードが再起動する
問題
- ハートビートの停止または欠落により、AFF A400、AFF C400、ASA A400、ASA C400、FAS8300、またはFAS8700ノードが予期せずリブートします
- 次のイベントはこの問題の例です:
[Node-01: spmgrd: sp.heartbeat.stopped:error]: Service Processor(SP)から過去600秒間IPMIハートビートを受信していません。
[Node-01: spmgrd: callhome.sp.hbt.missed:notice]: Call home for SP HBT MISSED
[Node-01: spmgrd: callhome.sp.hbt.stopped:alert]: Call home for SP HBT STOPPED
[Node-01: env_mgr: sp.ipmi.lost.shutdown:EMERGENCY]: SPハートビートが停止し、回復できません。ハードウェアの損傷やデータ損失を防ぐため、システムは10分後にシャットダウンします。
[Node-01: env_mgr: monitor.shutdown.emergency:EMERGENCY]: 緊急シャットダウン:環境上の理由によるシャットダウン(BMCを回復するためのシステム再起動)
- IPMI_KCS_ERRメッセージは、sktrace.logの再起動のタイムスタンプで確認されます:
2024-03-10T01:30:58Z 2180899785867098 [5:0] IPMI_KCS_ERR: kcs_start_write: cmd 0x31 nf 0x36 state 3 not write
2024-03-10T01:30:58Z 2180899785870130 [5:0] IPMI_KCS_ERR: KCS cmd 0x31 nf 0x36: Failed to start write
2024-03-10T01:30:59Z 2180900784460092 [15:0] IPMI_KCS_ERR: kcs_error: cmd 0x31 nf 0x36 IBF not 0
2024-03-10T01:30:59Z 2180901778714878 [18:0] IPMI_KCS_ERR: kcs_error abort: cmd 0x31 nf 0x36 IBF not 0
2024-03-10T01:31:00Z 2180902760811516 [18:0] IPMI_KCS_ERR: kcs_error cmd 0x31 nf 0x36 not idle
2024-03-10T01:31:00Z 2180903779141166 [2:0] IPMI_KCS_ERR: kcs_error: cmd 0x31 nf 0x36 IBF not 0
- ノードがリブートし、オンラインに戻ります。