ノードのルートボリューム/アグリゲートを新しいディスクに移行する際、内部エラーにより失敗する
環境
問題
- ノードのルートボリューム/アグリゲートを新しいディスクに移行しようとすると、内部エラーにより失敗する
例1:
Wed Jan 05 10:46:28 +0800 [Node_name: mgwd: migrate.root.failed:error]: Root aggregate migration failed on node Node_name. Reason: Internal error. Failed to offline the volume "vol0". Reason: ..
Wed Jan 05 10:46:28 +0800 [Node_name: mgwd: mgmtgwd.jobmgr.jobcomplete.failure:info]: Job "Migrate root aggregate" [id 4315] (Root aggregate migration job for node Node_name) completed unsuccessfully: Internal error. Failed to offline the volume "vol0". Reason: . (1).
例2:
Execution Progress: Complete: Internal error. Failed to verify the new root aggregate status.
例3:
Execution Progress: Complete: Internal error. Failed to copy contents from old root to new root volume.
例4:
8/19/2024 10:54:37 Cluster-01 INFORMATIONAL mgmtgwd.jobmgr.jobcomplete.failure: Job "Migrate root aggregate" [id 589591] (Root aggregate migration job for node Node-01) completed unsuccessfully: Internal error. Failed to destroy the volume "vol0". Reason: . (1).
8/19/2024 10:54:37 Cluster-01 ERROR migrate.root.failed: Root aggregate migration failed on node Node-01. Reason: Internal error. Failed to destroy the volume "vol0". Reason: ..
Execution Progress: Complete: Internal error. Failed to rename the new root aggregate. Reason: . [1]
実行進行状況:完了:タイムアウト:操作 "copy_root_volume_contents_iterator::create_imp()" の完了に600秒以上かかりました
例7:
ノードのルートボリュームがクラスタシェルから見えず、ノードシェルで表示されます。
- 新しいルートアグリゲートが正常に作成され、ノードは正常ですが、ルート移行ジョブを再開できません
- 移行ジョブの再開を試みると、次のように失敗します:
Internal error. Failed to verify the new root aggregate status.