AFF A900緊急シャットダウン:環境上の理由によりシャットダウン(温度が重要)
環境
AFF A900
問題
- 高温に関連するデータセンター環境問題。
- 通常の温度外での動作が原因でONTAPイベントメッセージを報告するノードが1つあります。例:
[node_name-2: env_mgr: monitor.chassisTemperature.warm:alert]: Chassis temperature is too warm: Bat Ambient 2 is warning high (42 C).
[node_name-2: env_mgr: monitor.chassisTemperature.warm:alert]: Chassis temperature is too warm: Bat Ambient 1 is warning high (42 C).
[node_name-2: monitor: monitor.globalStatus.critical:EMERGENCY]: Chassis temperature is too high..
[node_name-2: env_mgr: callhome.chassis.hitemp:error]: Call home for CHASSIS OVER TEMPERATURE
- パートナーノードから同じ温度ONTAPイベントメッセージが報告される。例:
[node_name-1: env_mgr: monitor.shutdown.chassisOverTemp:EMERGENCY]: Chassis temperature is too hot: Multiple Temp sensors are too high. System will be shutdown in 2 minutes
[node_name-1: env_mgr: callhome.chassis.overtemp:EMERGENCY]: Call home for CHASSIS OVER TEMPERATURE SHUTDOWN
[node_name-1: env_mgr: monitor.shutdown.emergency:EMERGENCY]: Emergency shutdown: Environmental Reason Shutdown (Temperature critical)
- ノードをでブートできません。例:
Boot Loader version 6.6.4
Copyright (C) 2000-2003 Broadcom Corporation.
Portions Copyright (C) 2002-2022 NetApp, Inc. All Rights Reserved.
ACPI RSDP Found at 0x6f7fe014
BIOS POST Failure(s) detected: PCIe device missing error detected. Abort AUTOBOOT
- そのノードのBMCイベントは次のとおりです。
Record 2486: Fri Jan 19 05:50:28.000000 2024 [SysFW.notice]: Device 47/0/0 (SW0-VS1-P40) missing
Record 2487: Fri Jan 19 05:50:28.000000 2024 [SysFW.notice]: Device 74/0/0 (SW0-VS0-P32) missing
Record 2488: Fri Jan 19 05:50:43.000000 2024 [Boot Loader.critical]: Abort Autoboot due to BIOS POST failure.
- ノードの再配置後も問題が維持される
- 問題は、PCIeカードの再装着/スワップ後も維持されます。