StorageGRIDがILM placement unachievableアラートをレポートする

規定されたコンテンツ ブロック内にのみテキストを追加します。ソルブループコンテンツの作成の詳細については、こちら をクリックしてください。
環境
NetApp StorageGRID
問題
StorageGRIDがアラートを報告:
ILM placement unachievable
A placement instruction in an ILM rule cannot be achieved for certain objects.
原因
このアラートは、ILM 配置要件を満たすために使用できる / 応答する ノード が不十分な場合にトリガーされる可能性があります。一時的な状態である可能性もあります。
アラートが自動的にクリアされた場合は、後続の ILM スキャン(バックグラウンドで継続的に実行)で ILM 配置要件を適用できます。
このアラートをトリガーする原因はいくつかあります:
- ネットワーク関連の問題
- 1 つ以上のストレージ ノードで LDR サービスまたはストレージ ボリュームに問題が発生しています
- アップグレード後
- 電力メンテナンス
- 断続的なアラート
- EC スキーマまたはレプリケーション ルールに十分なノードがあるだけ
アラームは、 storagegrid_ilm_total_unachievable_placements 値が増加されることに基づいています。
- アラートをクリアするには、アラートの基本構成で値が 24 時間 0 である必要があります。
- 一時的なイベント中、ワークロード アクティビティのバーストなどにより、ILM を満たすのに十分なノードが利用可能になると、ILM キューは数分でクリアされます。
- これらのイベント中、キューは迅速かつ自動的にクリアされる可能性があります。 これらの値は、顧客が希望する場合に変更することができ、値が増加していない場合は 24 時間より早くアラートをクリアすることができます。
- 例:必要に応じて 24 時間から 1 時間まで。
解決策
追加情報
内部情報
StorageGRID の EC ILM ルールとバランスの取れた取り込みのデフォルトの動作では、1 つのノードが再起動したときにアラートがトリガーされる仕組みが説明されています。
- 原則的にはどのノードも別のサイトのデータ要求を受けることができ、そのサイトに行って検索したり配置したりするだけです。
- バランスのとれた取り込みの場合、配置が達成できない場合(ノードの再起動)、取り込まれたデータはデュアルコミットにフォールバックされ、他のノードによって取り込まれます。
- データを取り込んでいるノードは、
ILM placement unachievableのアラートを送信しています。
いずれかのストレージ ノードの LDR サービスがエラーまたは非オンライン状態である場合は、さらに調査してください。 LDR
- エラーを報告しているrangedbの場合
- サービスを停止:
service servermanager stop - リブート:
shutdown -r now
Health 、ノードにSSHで接続し、rangedbディレクトリにcdしてls -lを試してください- 入出力エラーが発生した場合は、正しくマウントされていない可能性があり、ノードの正常な再起動を実行することで解決できます
- これは、グリッド UI または SSH でサービスを停止し、ノードを再起動することで実行できます:
ASUP とクリアされたアラートをチェックして、Node Down または Storage Node not in desired state が記載されているかどうかを確認してください。
ILM 配置が達成できないと報告している各ノードの bycast.log ファイルを検索して、応答しなかったノードを特定できます。
- 例:
NODE_NAME/2024-07-30_1403-1618/grid/bycast.log:Jul 30 14:40:12 NODE_NAME ADE: | NODE_ID_OF_ALERTING_NODE 1234567890 ECPU SQRT 2024-07-30T14:40:12.717803| NOTICE 0011 11a1111a1a11ada8 ECPU: NODE_ID_OF_UNREACHABLE_NODE unreachable, cannot delete 4 chunks for 1234567F-123E-12AB-1234-F1FF12345678.1722315650649309 in VCS 11A11A11-A1A1-1111-AA11-1AA111123456
- ノード ID を使用して、 サポート-> その他 -> NMS エンティティ -> すべてのレコードを表示 -> ID を検索し、ID の上にあるノード名を確認できます。
- または、StorageGRID 11.7 以降では、ノード ID のプライマリ管理ノードで nodeinfo コマンドを実行できます。 例:
root@PRIMARY-ADMIN-NODE-NAME: nodeinfo -s NODE_ID_OF_UNREACHABLE_NODENODE-NAME-OF-THE-ID
ILM を達成できなかった場合のメッセージを検索できます。
- 例:
bycast.log:Jul 30 14:40:12 NODE_NAME ADE: |12345678 1234567890 ILMX CBPD 2024-07-30T14:40:12.870162| NOTICE 0379 ILMX: notified that '12345678-1234-1234-1234-AD1F123F9DEF/1234567890ABCDEF' cannot fulfill ILM replication -> skipping
ノードが応答しなかったときに一致する次の値を Prometheus ログで確認できます。
CPU usagestoragegrid_storage_state_currentstoragegrid_ilm_total_unachievable_placementscassandra_messagingservice_droppedmessagesstoragegrid_storage_state_current
ノードはチャンク サービスから一時的に論理的にオフラインとしてマークされている可能性があります。
- 現在、ノードが論理的にオフラインとしてマークされている場合、チャンク サービスは 30 分ごとに再チェックを実行し、合格するとノードは再び ILM に使用できるようになります。
- StorageGRID では、現在のようにすぐにノードをオフラインとしてマークしないように変更することを検討しています。PI49889 を参照してください。 例:
bycast.log Jul 30 14:40:12 NODE_NAME ADE: |12941126 0682479493 CHUN ^RDY 2025-02-25T10:40:42.927805| WARNING 1639 CSMM: Received unexpected response code from external chunk service: 0bycast.log Jul 30 14:40:12 NODE_NAME ADE: |12941126 0682479493 CHUN ^RDY 2025-02-25T10:40:42.948112| NOTICE 0488 CSMM: Changing external storage service state to 'OFLN'bycast.log Jul 30 14:40:12 NODE_NAME ADE: |12941126 0682490076 CHUN ^RDY 2025-02-25T10:41:12.949366| NOTICE 0488 CSMM: Changing external storage service state to 'ONLN'- これらは環境への影響を最小限に抑えて育てることができます。ただし、EE の承認が必要です。まずは上記の内容をご確認ください。
- ILMX デバッグ レベル:I(これは文字の I であり、数字の 1 ではありません)
- ECGQ デバッグ レベル:3
- StorageGRID デバッグ レベルのログを有効または無効にする方法