古いECプロファイル用の十分なデスティネーションノードがサイトにないため、StorageGRIDストレージノードDECOMが停止しました
環境
StorageGRIDバージョン11.5.0.8および11.6.0.7以前
問題
ECプロファイルの変更後にストレージノードの運用停止を完了できない。
ECリーダー(Node_Name)に関するECジョブの運用停止エラーが報告されます。リーダーのECJMレベル1を有効にし、ログバンドルをキャプチャしました。Found belowメッセージ(「Selecting destination for EC group failed after 5 retries.」)は、ノードNode_Nameの運用停止によってプールからノードが4つしかなくなるため、古いECプロファイルでストレージプールに十分なデスティネーションが見つからないため、運用停止が一時停止していることを示します。
Dec 9 19:29:01 Node_Name ADE: |21426716 1820442787 ECJM CSRT 2022-12-09T19:29:01.253077| NOTICE 0376 ECJM: EcgDecomJob: '11696086893380218698' ECG: 'DB1B050F-1755-4F86-995C-81085336DC19' VCS: 'DB349EB5-32DE-40C6-BB52-DA99AEF0A607': Selecting possible destination for affectedBytes: 0
...
Dec 9 19:29:01 Node_Name ADE: |21426716 1820442787 ECJM EPRP 2022-12-09T19:29:01.253925| ERROR 1054 PROC: Exception: /build/src/modules/ErasureCoding/EC_JobManager_Module/EcgDecommissionJob.cc(368): Throw in function void erasurecoding::EcgDecommissionJob::selectDestinationNode()#012Dynamic exception type: boost::exception_detail::clone_impl<boost::exception_detail::error_info_injector<std::runtime_error>>#012std::exception::what: ENFORCE failed: !"Selecting destination for EC group failed after 5 retries."#012
Dec 9 19:29:06 Node_Name ADE: |21426716 1820442641 ECJM CSRT 2022-12-09T19:29:06.397947| ERROR 0112 ECJM: Exception caught during decommissioning ENFORCE failed: 'SUCS' == *jobResult.
Dec 9 19:29:06 Node_Name ADE: |21426716 1820442641 ECJM CSRT 2022-12-09T19:29:06.398057| ERROR 1054 PROC: Exception: /build/src/modules/ErasureCoding/EC_JobManager_Module/NodeDecommissionJob.cc(447): Throw in function CXD_AtomContainer erasurecoding::NodeDecommissionJob::waitForJobCompletions()#012Dynamic exception type: boost::exception_detail::clone_impl<boost::exception_detail::error_info_injector<std::runtime_error>>#012std::exception::what: ENFORCE failed: 'SUCS' == *jobResult#012