CFBMC-3251: 多くのIOカードがBMCリブートによってデグレードおよびリカバリとして報告される
問題
多くのIOカードがデグレード状態と報告され、BMCのリブートで回復される
- 複数のセンサーが同時に劣化し、センサーが「is not readable」ステータスになりました
[?]Wed Jul 10 19:06:17 +0900 [node-1: env_mgr: monitor.ioCard.degraded:alert]: IOカードがデグレードされています: IO1 SAS Inflow Tempは読み取りできません
[?]Wed Jul 10 19:06:20 +0900 [node-1: env_mgr: monitor.ioCard.degraded:alert]: IOカードがデグレードされています: IO1 SAS Outflow Tempは読み取りできません
・
・
[?]Wed Jul 10 19:06:33 +0900 [node-1: env_mgr: monitor.ioCard.degraded:alert]: IOカードがデグレードされています: IO11 SAS P12V HSは読み取りできません
[?]Wed Jul 10 19:06:33 +0900 [node-1: env_mgr: monitor.ioCard.degraded:alert]: IOカードがデグレードされています: IO11 SAS Hot Swap Curは読み取りできません
- SPのリブートが直ちにトリガーされ、「Chassis temperature is too high」というメッセージと「monitor.globalStatus.critical: EMERGENCY」というステータスが表示されます。
[?]Wed Jul 10 19:06:33 +0900 [node-1: env_mgr: sp.reboot.sensor.unreadable:notice]: 1つ以上のセンサーが読み取り不能なため、BMCを再起動しています。
[?]Wed Jul 10 19:07:00 +0900 [node-1: monitor: monitor.globalStatus.critical:EMERGENCY]: シャーシの温度が高すぎます。
[?]Wed Jul 10 19:07:48 +0900 [node-1: cf_worker: cf.hwassist.notifyCfgSuccess:debug]: パラメーター: {'hwtype': 'BMC'}
- ただし、「hm.alert.critical: alert」の ASUP がトリガーされます。
[?]Wed Jul 10 19:18:45 +0900 [node-1: mgwd: callhome.hm.alert.critical:alert]: Health Monitor プロセス cphm の Call home:CriticalFruMultiFaultAlert[033243222222]。