Watchdog_Rebootが原因でBMCがリブートしているが、AFF A400でノードがパニック状態にならなかった
環境
- AFF-A400
- SP/BMC 13.10P1、13.11、13.11P1
問題
- node01のBMCがランダムに再起動する
HW watchdog reboot
ただし、ノードではパニック/再起動は観察されません。
b99 | 06/23/2024 | 10:22:55 | Watchdog_Reboot #0xbc | HW watchdog reboot | Asserted
bb0 | 07/04/2024 | 20:32:46 | Watchdog_Reboot #0xbc | HW watchdog reboot | Asserted
bc4 | 07/13/2024 | 13:59:37 | Watchdog_Reboot #0xbc | HW watchdog reboot | Asserted
bf9 | 08/10/2024 | 18:23:04 | Watchdog_Reboot #0xbc | HW watchdog reboot | Asserted
- BMCウォッチドッグイベント
boot_time.log
:
IPMI_Main.c main start 10.59 7.84
IPMI_Main.c main after sync time 14.82 12.92 Wed Feb 24 13:29:00 GMT 2021
BMC init unknown:Wed Feb 24 13:29:10 GMT 2021
GPIO boot : Primary
Physical slot : #1
Primary env : active:#1 inactive:#1
Last boot error : HW watchdog timeout happened last time! Try to update your inactive flash again!
BMC init 3 6:Wed Feb 24 13:41:21 GMT 2021
GPIO boot : Primary
Physical slot : #1
Primary env : active:#0 inactive:#0
Last boot error : HW watchdog timeout happened last time! Try to update your inactive flash again!