「CPU_Cat_Error」イベントによりノードがダウンしました
環境
- AFF A220
- FAS2750
- FAS2720
- FAS2650
- AFF C190
- AFF A800
問題
- BMCコンソールログにエラーメッセージは見つかりませんでした。
- BMCイベントは、Heartbeat停止の直前に
CPU_Cat_Errorを示しています:
Record 1458: Mon Mar 30 13:15:07.660000 2020 [IPMI.notice]: 00ba | 02 | EVT: 0301ffff | CPU_Cat_Error | Assertion Event, "State Asserted"
Record 1459: Mon Mar 30 13:26:15.570000 2020 [BMC.critical]: Heartbeat stopped
- SPハートビートの喪失によりノードが予期せず再起動し、電源が再投入される
[?] Mon Apr 27 11:08:13 +0200 [Node-02: cf_hwassist: cf.hwassist.takeoverTrapRecv:notice]: hw_assist: Received takeover hw_assist alert from partner(Node-01), system_down because power_cycle_via_sp.