メインコンテンツへスキップ

StorageGRIDがILM placement unachievableアラートをレポートする

Views:
60
Visibility:
Public
Votes:
0
Category:
storagegrid
Specialty:
sgrid
Last Updated:

Color_Def.png

規定されたコンテンツ ブロック内にのみテキストを追加します。ソルブループコンテンツの作成の詳細については、こちら をクリックしてください。

環境

NetApp StorageGRID

問題

StorageGRIDがアラートを報告:

ILM placement unachievable
A placement instruction in an ILM rule cannot be achieved for certain objects.

原因

このアラートは、ILM 配置要件を満たすために使用できる / 応答する ノード が不十分な場合にトリガーされる可能性があります。一時的な状態である可能性もあります。

アラートが自動的にクリアされた場合は、後続の ILM スキャン(バックグラウンドで継続的に実行)で ILM 配置要件を適用できます。

このアラートをトリガーする原因はいくつかあります:

  • ネットワーク関連の問題
  • 1 つ以上のストレージ ノードで LDR サービスまたはストレージ ボリュームに問題が発生しています
  • アップグレード後
  • 電力メンテナンス
  • 断続的なアラート
  • EC スキーマまたはレプリケーション ルールに十分なノードがあるだけ

アラームは、 storagegrid_ilm_total_unachievable_placements 値が増加されることに基づいています。 

  • アラートをクリアするには、アラートの基本構成で値が 24 時間 0 である必要があります。
  • 一時的なイベント中、ワークロード アクティビティのバーストなどにより、ILM を満たすのに十分なノードが利用可能になると、ILM キューは数分でクリアされます。
  • これらのイベント中、キューは迅速かつ自動的にクリアされる可能性があります。  
  • これらの値は、顧客が希望する場合に変更することができ、値が増加していない場合は 24 時間より早くアラートをクリアすることができます。 
    • :必要に応じて 24 時間から 1 時間まで。 

 

解決策

トピック 解決策
電源メンテナンスが実施された場合 StorageGRID 、電源メンテナンス後に ILM 配置が達成できないと報告
StorageGRIDソフトウェアのアップグレードが実行された場合 StorageGRID アップグレード後に ILM 配置が達成できないと報告される
ネットワーク関連の問題がないことを確認する ネットワークの問題によりStorageGRIDがILM配置の実現不可を報告
オブジェクト ストア(rangedb)がエラー状態になっていないことを確認します StorageGRID は、オブジェクト ストア ボリュームがエラー状態のため ILM 配置が達成できないことを報告します
StorageGRID が拡張シェルフで拡張されたにもかかわらず、エラーが引き続き報告される場合 拡張シェルフを追加した後でも、StorageGRIDでILM配置が達成不可能であると報告される
StorageGRID が利用可能なオブジェクト データ スペースをほぼ使い切った場合 StorageGRIDは、空きスペースがない場合にILM配置が不可能であると報告します
ILM ポリシーの変更が最近完了した場合 ILMポリシーの変更後にStorageGRIDがILM配置を実行できないとレポートする
リソースの問題がある場合 StorageGRID でリソースの問題により ILM 配置が達成不可能であると報告される
Cloud Storage Pools に接続の問題がある場合 StorageGRID でクラウド ストレージ プールの ILM 配置が達成不可能であると報告される
ECスキーマ、Erasure Codingスキーマ、またはレプリケーションルールに最小数のノードを使用している場合 StorageGRID が ILM の最小ノード数のため ILM 配置が達成できないと報告します

アラートが断続的に報告されている場合

(これらの KB を実行する前に上記を確認してください)

StorageGRID 断続的なアラート ILM 配置は実現不可能

StorageGRIDのアラート「ILM placement unachievable」が、観察可能な問題がないにもかかわらず頻繁に発生する

NTPサーバーがNetAppのベストプラクティスに従って設定されていることを確認します

StorageGRIDが、QUORUM整合性レベルに達していないためILM配置手順を実行できないとレポートされる

 

内部情報

StorageGRID の EC ILM ルールとバランスの取れた取り込みのデフォルトの動作では、1 つのノードが再起動したときにアラートがトリガーされる仕組みが説明されています。

  • 原則的にはどのノードも別のサイトのデータ要求を受けることができ、そのサイトに行って検索したり配置したりするだけです。
  • バランスのとれた取り込みの場合、配置が達成できない場合(ノードの再起動)、取り込まれたデータはデュアルコミットにフォールバックされ、他のノードによって取り込まれます。
  • データを取り込んでいるノードは、 ILM placement unachievableのアラートを送信しています。

いずれかのストレージ ノードの LDR サービスがエラーまたは非オンライン状態である場合は、さらに調査してください。  LDR

    エラーを報告しているrangedbの場合 Health 、ノードにSSHで接続し、rangedbディレクトリにcdしてls -lを試してください
      入出力エラーが発生した場合は、正しくマウントされていない可能性があり、ノードの正常な再起動を実行することで解決できます
        これは、グリッド UI または SSH でサービスを停止し、ノードを再起動することで実行できます:
        • サービスを停止: service servermanager stop
        • リブート: shutdown -r now

 

ASUP とクリアされたアラートをチェックして、Node Down または Storage Node not in desired state が記載されているかどうかを確認してください。 

ILM 配置が達成できないと報告している各ノードの bycast.log ファイルを検索して、応答しなかったノードを特定できます。 

  • :
    • NODE_NAME/2024-07-30_1403-1618/grid/bycast.log:Jul 30 14:40:12 NODE_NAME ADE: | NODE_ID_OF_ALERTING_NODE 1234567890 ECPU SQRT 2024-07-30T14:40:12.717803| NOTICE   0011 11a1111a1a11ada8 ECPU: NODE_ID_OF_UNREACHABLE_NODE unreachable, cannot delete 4 chunks for 1234567F-123E-12AB-1234-F1FF12345678.1722315650649309 in VCS 11A11A11-A1A1-1111-AA11-1AA111123456
  • ノード ID を使用して、 サポート-> その他 -> NMS エンティティ -> すべてのレコードを表示 -> ID を検索し、ID の上にあるノード名を確認できます。
  • または、StorageGRID 11.7 以降では、ノード ID のプライマリ管理ノードで nodeinfo コマンドを実行できます。
  • : 
    • root@PRIMARY-ADMIN-NODE-NAME: nodeinfo -s NODE_ID_OF_UNREACHABLE_NODE
    • NODE-NAME-OF-THE-ID

ILM を達成できなかった場合のメッセージを検索できます。 

    • bycast.log:Jul 30 14:40:12 NODE_NAME ADE: |12345678 1234567890 ILMX CBPD 2024-07-30T14:40:12.870162| NOTICE   0379 ILMX: notified that '12345678-1234-1234-1234-AD1F123F9DEF/1234567890ABCDEF' cannot fulfill ILM replication -> skipping

ノードが応答しなかったときに一致する次の値を Prometheus ログで確認できます。 

  • CPU usage
  • storagegrid_storage_state_current
  • storagegrid_ilm_total_unachievable_placements
  • cassandra_messagingservice_droppedmessages
  • storagegrid_storage_state_current

ノードはチャンク サービスから一時的に論理的にオフラインとしてマークされている可能性があります。

  • 現在、ノードが論理的にオフラインとしてマークされている場合、チャンク サービスは 30 分ごとに再チェックを実行し、合格するとノードは再び ILM に使用できるようになります。
  • StorageGRID では、現在のようにすぐにノードをオフラインとしてマークしないように変更することを検討しています。PI49889 を参照してください。
  • : 
    • bycast.log Jul 30 14:40:12 NODE_NAME ADE: |12941126 0682479493 CHUN ^RDY 2025-02-25T10:40:42.927805| WARNING 1639 CSMM: Received unexpected response code from external chunk service: 0
    • bycast.log Jul 30 14:40:12 NODE_NAME ADE: |12941126 0682479493 CHUN ^RDY 2025-02-25T10:40:42.948112| NOTICE 0488 CSMM: Changing external storage service state to 'OFLN'
    • bycast.log Jul 30 14:40:12 NODE_NAME ADE: |12941126 0682490076 CHUN ^RDY 2025-02-25T10:41:12.949366| NOTICE 0488 CSMM: Changing external storage service state to 'ONLN'
    EE の承認があれば、次のデバッグ レベルを上げて、新しい ILM 配置が達成できないイベントから追加のログをキャプチャできます。 

 

Sign in to view the entire content of this KB article.

New to NetApp?

Learn more about our award-winning Support

NetApp provides no representations or warranties regarding the accuracy or reliability or serviceability of any information or recommendations provided in this publication or with respect to any results that may be obtained by the use of the information or observance of any recommendations provided herein. The information in this document is distributed AS IS and the use of this information or the implementation of any recommendations or techniques herein is a customer's responsibility and depends on the customer's ability to evaluate and integrate them into the customer's operational environment. This document and the information contained herein may be used solely in connection with the NetApp products discussed in this document.