AFF A700sプラットフォームでのL2 watchdogタイマーリセットの処理
環境
- AFF A700s
問題
- ノードが予期せず再起動する
- ノードが予期しないシャットダウン後にリブートしない
- 影響を受けたノードのBMCログには、次の情報が表示されます:
453 | 05/10/2022 | 23:21:58 | CriticalInt | Software NMI | Asserted
454 | 05/10/2022 | 23:21:58 | Watchdog2 | Timer interrupt | Asserted
455 | 05/10/2022 | 23:21:59 | Watchdog2 | Hard reset | Asserted
456 | 05/10/2022 | 23:21:59 | SysReset | State Asserted | Asserted
- ノードがリブートすると、次のエラーがEMSログファイルに表示されます
Wed May 11 00:21:59 +0100 [NetApp: cf_hwassist: cf.hwassist.takeoverTrapRecv:notice]: hw_assist: Received takeover hw_assist alert from partner(n4-nht-fas-c03-02), system_down because l2_watchdog_reset.
Wed May 11 00:21:59 +0100 [NetApp: cf_hwassist: cf.hwassist.takeoverTrapRecv:notice]: hw_assist: Received takeover hw_assist alert from partner(n4-nht-fas-c03-02), system_down because reset_via_sp.
Wed May 11 00:22:00 +0100 [NetApp: cf_main: cf.fsm.stateTransit:info]: Failover monitor: UP --> TAKEOVER