StorageGRIDがILM placement unachievableアラートをレポートする

最後の更新
PDFとして保存

Views:: 72

Visibility:: Public

Votes:: 0

Category:: storagegrid

Specialty:: sgrid

Last Updated:

規定されたコンテンツブロック内にのみテキストを追加します。ソルブループコンテンツの作成の詳細については、こちらをクリックしてください。

環境

NetApp StorageGRID

問題

StorageGRIDがアラートを報告:

ILM placement unachievable A placement instruction in an ILM rule cannot be achieved for certain objects.

原因

このアラートは、ILM 配置要件を満たすために使用できる / 応答するノードが不十分な場合にトリガーされる可能性があります。一時的な状態である可能性もあります。

アラートが自動的にクリアされた場合は、後続の ILM スキャン（バックグラウンドで継続的に実行）で ILM 配置要件を適用できます。

このアラートをトリガーする原因はいくつかあります：

ネットワーク関連の問題
1 つ以上のストレージノードで LDR サービスまたはストレージボリュームに問題が発生しています
アップグレード後
電力メンテナンス
断続的なアラート
EC スキーマまたはレプリケーションルールに十分なノードがあるだけ

アラームは、 storagegrid_ilm_total_unachievable_placements 値が増加されることに基づいています。

アラートをクリアするには、アラートの基本構成で値が 24 時間 0 である必要があります。
一時的なイベント中、ワークロードアクティビティのバーストなどにより、ILM を満たすのに十分なノードが利用可能になると、ILM キューは数分でクリアされます。
これらのイベント中、キューは迅速かつ自動的にクリアされる可能性があります。

例：必要に応じて 24 時間から 1 時間まで。

解決策

トピック	解決策
電源メンテナンスが実施された場合	StorageGRID 、電源メンテナンス後に ILM 配置が達成できないと報告
StorageGRIDソフトウェアのアップグレードが実行された場合	StorageGRID アップグレード後に ILM 配置が達成できないと報告される
ネットワーク関連の問題がないことを確認する	ネットワークの問題によりStorageGRIDがILM配置の実現不可を報告
オブジェクトストア（rangedb）がエラー状態になっていないことを確認します	StorageGRID は、オブジェクトストアボリュームがエラー状態のため ILM 配置が達成できないことを報告します
StorageGRID が拡張シェルフで拡張されたにもかかわらず、エラーが引き続き報告される場合	拡張シェルフを追加した後でも、StorageGRIDでILM配置が達成不可能であると報告される
StorageGRID が利用可能なオブジェクトデータスペースをほぼ使い切った場合	StorageGRIDは、空きスペースがない場合にILM配置が不可能であると報告します
ILM ポリシーの変更が最近完了した場合	ILMポリシーの変更後にStorageGRIDがILM配置を実行できないとレポートする
リソースの問題がある場合	StorageGRID でリソースの問題により ILM 配置が達成不可能であると報告される
Cloud Storage Pools に接続の問題がある場合	StorageGRID でクラウドストレージプールの ILM 配置が達成不可能であると報告される
ECスキーマ、Erasure Codingスキーマ、またはレプリケーションルールに最小数のノードを使用している場合	StorageGRID が ILM の最小ノード数のため ILM 配置が達成できないと報告します
アラートが断続的に報告されている場合（これらの KB を実行する前に上記を確認してください）	StorageGRID 断続的なアラート ILM 配置は実現不可能 StorageGRIDのアラート「ILM placement unachievable」が、観察可能な問題がないにもかかわらず頻繁に発生する
NTPサーバーがNetAppのベストプラクティスに従って設定されていることを確認します	StorageGRIDが、QUORUM整合性レベルに達していないためILM配置手順を実行できないとレポートされる

追加情報

11.5以上
- アラートリファレンス
- StorageGRID ログファイルリファレンス

内部情報

StorageGRID の EC ILM ルールとバランスの取れた取り込みのデフォルトの動作では、1 つのノードが再起動したときにアラートがトリガーされる仕組みが説明されています。

原則的にはどのノードも別のサイトのデータ要求を受けることができ、そのサイトに行って検索したり配置したりするだけです。
バランスのとれた取り込みの場合、配置が達成できない場合（ノードの再起動）、取り込まれたデータはデュアルコミットにフォールバックされ、他のノードによって取り込まれます。
データを取り込んでいるノードは、 ILM placement unachievableのアラートを送信しています。

いずれかのストレージノードの LDR サービスがエラーまたは非オンライン状態である場合は、さらに調査してください。 LDR

Health

サービスを停止： service servermanager stop
リブート： shutdown -r now

ASUP とクリアされたアラートをチェックして、Node Down または Storage Node not in desired state が記載されているかどうかを確認してください。

ILM 配置が達成できないと報告している各ノードの bycast.log ファイルを検索して、応答しなかったノードを特定できます。

例:
- NODE_NAME/2024-07-30_1403-1618/grid/bycast.log:Jul 30 14:40:12 NODE_NAME ADE: | NODE_ID_OF_ALERTING_NODE 1234567890 ECPU SQRT 2024-07-30T14:40:12.717803| NOTICE 0011 11a1111a1a11ada8 ECPU: NODE_ID_OF_UNREACHABLE_NODE unreachable, cannot delete 4 chunks for 1234567F-123E-12AB-1234-F1FF12345678.1722315650649309 in VCS 11A11A11-A1A1-1111-AA11-1AA111123456
ノード ID を使用して、 サポート-> その他 -> NMS エンティティ -> すべてのレコードを表示 -> ID を検索し、ID の上にあるノード名を確認できます。
または、StorageGRID 11.7 以降では、ノード ID のプライマリ管理ノードで nodeinfo コマンドを実行できます。

例

root@PRIMARY-ADMIN-NODE-NAME: nodeinfo -s NODE_ID_OF_UNREACHABLE_NODE
NODE-NAME-OF-THE-ID

ILM を達成できなかった場合のメッセージを検索できます。

例:
- bycast.log:Jul 30 14:40:12 NODE_NAME ADE: |12345678 1234567890 ILMX CBPD 2024-07-30T14:40:12.870162| NOTICE 0379 ILMX: notified that '12345678-1234-1234-1234-AD1F123F9DEF/1234567890ABCDEF' cannot fulfill ILM replication -> skipping

ノードが応答しなかったときに一致する次の値を Prometheus ログで確認できます。

CPU usage
storagegrid_storage_state_current
storagegrid_ilm_total_unachievable_placements
cassandra_messagingservice_droppedmessages
storagegrid_storage_state_current

ノードはチャンクサービスから一時的に論理的にオフラインとしてマークされている可能性があります。

現在、ノードが論理的にオフラインとしてマークされている場合、チャンクサービスは 30 分ごとに再チェックを実行し、合格するとノードは再び ILM に使用できるようになります。
StorageGRID では、現在のようにすぐにノードをオフラインとしてマークしないように変更することを検討しています。PI49889 を参照してください。

例

bycast.log Jul 30 14:40:12 NODE_NAME ADE: |12941126 0682479493 CHUN ^RDY 2025-02-25T10:40:42.927805| WARNING 1639 CSMM: Received unexpected response code from external chunk service: 0
bycast.log Jul 30 14:40:12 NODE_NAME ADE: |12941126 0682479493 CHUN ^RDY 2025-02-25T10:40:42.948112| NOTICE 0488 CSMM: Changing external storage service state to 'OFLN'
bycast.log Jul 30 14:40:12 NODE_NAME ADE: |12941126 0682490076 CHUN ^RDY 2025-02-25T10:41:12.949366| NOTICE 0488 CSMM: Changing external storage service state to 'ONLN'

これらは環境への影響を最小限に抑えて育てることができます。ただし、EE の承認が必要です。まずは上記の内容をご確認ください。
ILMX デバッグレベル：I（これは文字の I であり、数字の 1 ではありません）
ECGQ デバッグレベル：3
StorageGRID デバッグレベルのログを有効または無効にする方法