shutdown pending(degraded mode)critical - AutoSupport メッセージです
環境
- ONTAP 9
- CallHome, shutdown.pending
- monitor.shutdown.brokenDisk
- HA Group Notification from node_name(shutdown pending(degraded mode))アラート
イベント サマリ
- このメッセージは、ディスクドライブで障害が発生したが、再構築に使用できる適切なスペアがない場合に表示されます。さらに、この障害により、アグリゲートのRAIDグループは別のディスク障害からの残りの保護を失います。つまり、RAIDグループは完全にデグレード状態になります。
- 「完全にデグレード」の定義は、アグリゲートで使用されるRAIDグループタイプによって異なります。
- RAID 4 - RAIDグループの1つのディスクが見つからないか、障害が発生しています
- RAID-DP - RAIDグループに2つのディスクが見つからないか障害が発生しています
- RAID-TEC グループで3つのディスクが見つからないか障害が発生しています
-
- ミラーアグリゲートは、アグリゲートの両方のプレックスで同じ位置RAIDグループ内のディスクが見つからないか障害が発生している場合、「完全にデグレード状態」とみなされます。
- データを保護するために、システムは「デグレードモード」に入ります。
- 9.12.1より前のバージョンのONTAPでは、定義されたタイムアウト間隔の間完全なデグレードモードで実行されている場合、システムは自動的に停止し、RAIDグループの整合性障害やデータ損失の可能性を回避します。
- デフォルトのタイムアウトは24時間です。
- システムがデグレードモードで実行されている間にスペアドライブが使用可能になると、システムはただちに障害が発生したドライブのリビルドを開始します。
検証
イベント ログ
event log show -severity * -message-name callhome*
[node1: statd: callhome.shutdown.pending:alert]: Call home for SHUTDOWN PENDING (degraded mode)
event log show -severity * -message-name monitor.brokenDisk*
[node1: statd: monitor.brokenDisk.notice:info]: When two disks are broken in raid_dp volume, the system shuts down automatically every 24 hours to encourage you to replace the disk. If you reboot the system it will run for another 24 hours before shutting down. (The 24 hour timeout may be increased by altering the "raid.timeout" value using the "options" command.)
[node1: statd: monitor.shutdown.brokenDisk.pending:notice]: two data disks in RAID group "/aggregate_name/plex0/rg0" are broken. Halting system in 24 hours.
コマンドライン
アグリゲートのステータスを確認するには、を実行します storage aggregate show-status
RAID group /aggregate_name/plex0/rg1 (double degraded, block checksums) RAID Disk Device HA SHELF BAY CHAN Pool Type RPM Used (MB/blks) Phys (MB/blks) --------- ------ ------------- ---- ---- ---- ----- -------------- -------------- dparity 0b.07.12 0b 7 12 SA:B 0 SAS 10000 1713523/3509295616 1716957/3516328368 parity 0b.07.13 0b 7 13 SA:B 0 SAS 10000 1713523/3509295616 1716957/3516328368 data FAILED N/A 1713523/ - data 0b.07.15 0b 7 15 SA:B 0 SAS 10000 1713523/3509295616 1716957/3516328368 data FAILED N/A 1713523/ - data 0b.07.21 0b 7 21 SA:B 0 SAS 10000 1713523/3509295616 1716957/3516328368
このコマンド storage failover show
を実行して、 再構築または交換が必要なディスクを含むアグリゲートが部分的なギブバック状態になっているかどうかを確認します
::>storage failover show
Takeover
Node Partner Possible State Description
-------------- -------------- -------- -------------------------------------
Node-1 Node-2 true Connected to Node-2, Partial giveback
Node-2 Node-1 true Connected to Node-1.
解決策
- 未割り当てのディスクがないかどうかを確認します。再構築を開始するためにスペアが必要なノードに割り当てます(再構築が開始されるとステータスは消えます)。
::>storage disk show -container-type unassigned
::>storage disk assign -disk <stackID>.<shelfID>.<bayID> -owner <node name>
- 部分的なギブバック 状態の場合は、ギブバックを完了します。部分的なギブバック状態のときは、ディスクの再構築も退避も実行されません
- 障害が発生したドライブを交換します。「Part Status - disk failed - AutoSupport」(パーツのステータス-ディスクに障害が発生しました-)メッセージを確認するには
回避策
- HAパートナー ノードに同じタイプの利用可能なスペアディスクがほかにもないかどうかを確認します。HA またはDRのパートナーノードからスペアディスクを再割り当てする方法に従います
さらにサポートが必要な場合:
追加情報
- ONTAP 9.12.1以降の バグID 944990では、RAIDアグリゲートが24時間デグレード状態のままでシステムが停止しなくなりました。 アグリゲートが完全にデグレード状態の場合、デフォルトのシステム動作が停止しないように変更されます。
- 以前の動作を維持する場合は、raid.timeoutオプションをゼロ以外の値に設定して、タイムアウト時間が経過したときにシステムがシャットダウンするようにします。
- ONTAP 9.12.1 の「監視」イベント
- ONTAP Selectは、アグリゲートの作成、アグリゲートの追加、および障害が発生したディスク交換のためにどのようにスペアを用意しますか
- 「monitor.shutdown.brokenDisk:EMERGENCY" error」でノードをシャットダウンします