shutdown pending(degraded mode)critical - AutoSupport メッセージです
環境
- ONTAP 9
- CallHome.shutdown.pending
- monitor.shutdown.brokenDisk
- HA Group Notification from node_name(shutdown pending(デグレードモード)アラート
イベント サマリ
このメッセージは、適切なスペアディスクが不足しているためにRAIDグループがデグレード状態になって再構築できないために自動シャットダウンシーケンスが開始された場合に表示されます。つまり、RAIDグループは完全にデグレード状態です。
- 「完全にデグレード」の定義は 、アグリゲートで使用されるRAIDグループタイプによって異なります。
- RAID 4 - RAIDグループの1つのディスクが見つからないか障害が発生しています
- RAID-DP - RAIDグループに不明または障害のあるディスクが2つあります
- RAID-TEC グループに見つからないディスクまたは障害が発生しているディスクが3つあります
- ミラーアグリゲートは 、アグリゲートの両方のプレックスで同じ位置RAIDグループ内のディスクが見つからないか障害が発生している場合、「完全にデグレード状態」とみなされます。
- 9.12.1より前のバージョンのONTAPでは、定義されたタイムアウト間隔の間完全なデグレードモードで実行されている場合、システムは自動的に停止し、RAIDグループの整合性障害やデータ損失の可能性を回避します。
- デフォルトのタイムアウトは24時間です。
- システムがデグレードモードで実行されているときにスペアドライブが使用可能になると、障害が発生したドライブのリビルドがただちに開始されます。
検証
イベント ログ
event log show -severity * -message-name callhome*
[node1: statd: callhome.shutdown.pending:alert]: Call home for SHUTDOWN PENDING (degraded mode)
event log show -severity * -message-name monitor.brokenDisk*
[node1: statd: monitor.brokenDisk.notice:info]: When two disks are broken in raid_dp volume, the system shuts down automatically every 24 hours to encourage you to replace the disk. If you reboot the system it will run for another 24 hours before shutting down. (The 24 hour timeout may be increased by altering the "raid.timeout" value using the "options" command.)
[node1: statd: monitor.shutdown.brokenDisk.pending:notice]: two data disks in RAID group "/aggregate_name/plex0/rg0" are broken. Halting system in 24 hours.
コマンドライン
アグリゲートのステータスを確認するには、 storage aggregate show-status
RAID group /aggregate_name/plex0/rg1 (double degraded, block checksums) RAID Disk Device HA SHELF BAY CHAN Pool Type RPM Used (MB/blks) Phys (MB/blks) --------- ------ ------------- ---- ---- ---- ----- -------------- -------------- dparity 0b.07.12 0b 7 12 SA:B 0 SAS 10000 1713523/3509295616 1716957/3516328368 parity 0b.07.13 0b 7 13 SA:B 0 SAS 10000 1713523/3509295616 1716957/3516328368 data FAILED N/A 1713523/ - data 0b.07.15 0b 7 15 SA:B 0 SAS 10000 1713523/3509295616 1716957/3516328368 data FAILED N/A 1713523/ - data 0b.07.21 0b 7 21 SA:B 0 SAS 10000 1713523/3509295616 1716957/3516328368
run: storage failover show
再構築または交換が必要なディスクを含むアグリゲートが部分的なギブバック状態になっているかどうかを確認します。
::>storage failover show
Takeover
Node Partner Possible State Description
-------------- -------------- -------- -------------------------------------
Node-1 Node-2 true Connected to Node-2, Partial giveback
Node-2 Node-1 true Connected to Node-1.
解決策
- 未割り当てのディスクがないかどうかを確認します。再構築を開始するためにスペアが必要なノードに割り当てます(再構築が開始されるとステータスは消えます)。
::>storage disk show -container-type unassigned
::>storage disk assign -disk <stackID>.<shelfID>.<bayID> -owner <node name>
- 部分的なギブバック 状態の場合は、ギブバックを完了します。「 部分的なギブバック状態のときにディスクが再構築または退避しない」を参照
- 障害が発生したドライブを交換します。パーツのステータスを確認するには、次の技術情報アーティクルを参照して ください-ディスクに障害が発生しました- AutoSupportメッセージ
回避策
- HAパートナー ノードに同じタイプの利用可能なスペアディスクがほかにもないかどうかを確認します。手順に従います。 HAまたはDRパートナーノードからスペアディスクを再割り当てする方法
さらにサポートが必要な場合:
追加情報
- スペア低解像度ガイド
- ONTAP 9.12.1以降の バグID 944990では、RAIDアグリゲートが24時間デグレード状態のままでシステムが停止しなくなりました。 アグリゲートが完全にデグレード状態の場合、デフォルトのシステム動作が停止しないように変更されます。
- 以前の動作を維持する場合は、raid.timeoutオプションをゼロ以外の値に設定して、タイムアウト時間が経過したときにシステムがシャットダウンするようにします。
- アグリゲートの作成、アグリゲートの追加、および障害が発生したディスク交換のためのONTAP Selectスペア
- 「monitor.shutdown.brokenDisk:EMERGENCY" error」が表示されるノードのシャットダウン