メインコンテンツまでスキップ

メディアおよびリカバリされたディスクエラーについて

Views:
1,484
Visibility:
Public
Votes:
6
Category:
not set
Specialty:
kcsv6
Last Updated:

環境

  • ONTAP
  • ディスクメディアエラーです

回答

メディアエラーとは何ですか?

メディアエラーは、ストレージディスクが格納されたデータへのアクセスの問題が原因で、要求された I/O 処理を実行できなかったイベントです。

メディアエラーは読み取りトランザクションでは一般的ですが、書き込みでも発生することがあります。ディスクがデータを書き込む位置の特定に問題がある場合、書き込み時にメディアエラーが発生することがあります。読み取り時に、これらのポジショニングエラーに加えて、ディスクでデータの取得に問題が発生する場合があります。ディスクは、データを書き込むと、その位置を記録するため、 CRC またはチェックサムをメモしてデータ書き込みの整合性を確認するためなど、他の情報も書き込みます。

この情報に最初の試行で正しくアクセスできない場合、ディスクはこれをメディアエラーとして分類します。

メディアエラーは、回復可能および回復不能に細分化されます。どちらのタイプのエラーも想定されます。実際、ディスクベンダーは、リカバリ可能でリカバリ不能なメディアエラーが発生した場合の比率をこれまでと同様に記録しています。これらのエラー率は、メディアアクセスのビットあたりのエラー数で表されます。

メモ:これはメディアアクセスです。512 バイトのユーザデータは、各セクターに書き込まれるデータの一部にすぎません。ヘッダー、トレーラー、 CRC 、ギャップレコードのバイト数は、これらのエラーレートですべてカウントされる必要があります。また、これまで使用されなかった可能性のある読み取りヘッド用に取得されたデータもカウントされます。

回復可能なエラーとは何ですか?

回復可能なエラーはより一般的であり、予測されるエラー率が高くなります。リカバリエラーまたはリカバリ可能エラーは、ディスクがデータに正しくアクセスするために最初のアクセスよりも多くの処理を行う必要があることを示します。最終的に、ディスクは要求されたデータを RAID による操作なしで提供できました。再試行が必要な場合や、再試行によって正しいデータが生成されず、エラー修正が行われた場合があります。

ディスクには、エラー修正コードが必ずデータとともに記録されることに注意してください。これらの修正コードは、欠落したデータビットを確実に再現するために使用されます。ディスクがデータを読み取ると、読み出し対象のデータの CRC を計算し、この CRC をデータとともに保存された CRC と比較します。一致しない場合は、エラー修正コードを適用して欠落しているビットを再現することができます。

データリカバリは、通常、再試行、再配置と再試行、エラー修正コードの適用から一連の手順で実行します。これらのいずれかの手順に成功した場合、ディスクはこのデータ処理をリカバリ済みとみなします。データの読み出しまたは再作成のすべての手段が失敗した場合、これは回復不能なデータ処理になります。

システムは、通常の運用中にどのようにしてメディアエラーから回復しますか。

メディア障害は想定されるものであるため、ディスクが RAID ストレージシステムの一部である場合は正しく処理されます。Filer は、これらのイベントを次のように処理します。

最初に、 Filer のソフトウェアは、データ転送レートに関して、回復可能および回復不能なブロック・エラーの発生を調べます。エラー率が一定のしきい値を超えると、 Storage Health Monitor ( SHM )というモジュールで AutoSupport メッセージが生成されます。この SHM は、実際にこれらのエラー率以外にもさまざまなパラメータをチェックし、 I/O の完了に時間がかかりすぎたり、タイムアウトが頻繁に発生したりするものを探します。

エラーが回復可能なエラーである場合、トランザクションでは何も実行されません。リカバリ可能でした。ディスクドライバは、これが正常な I/O 操作であると見なします。ただし、 SHM はイベントを記録し、データレートに対するエラーの計算時にこの要因を考慮します。

エラーがリカバリ不能な場合は、 RAID 処理が実行されます。ディスクは実際には、エラー情報の一部としてエラーの論理ブロックアドレスを返します。コントローラはその LBA を取得し、不良ブロックアドレスを再割り当てするコマンドをディスク A に発行します。ディスクは内部機能を実行し、その時点から LBA にアクセスすると、物理メディアの別の部分にアクセスできるようにします。ディスクには、そのようなトランザクションのために予約されているセクターの大容量プールがあることに注意してください。

LBA を別の物理的な場所に再割り当てする管理機能が何らかの理由で失敗した場合、エラーが報告され、コントローラはディスクを障害状態にすることによってこのエラーに応答します。不良ブロックの再割り当てに成功しなかったディスクは使用されなくなりました。

再割り当てが成功すると、 LBA に関連付けられた新しい物理的な場所が書き換えられます。

デグレードモードでメディアエラーが発生するとどうなりますか?

デグレードモードでは、再構築が実行されない場合があります。同じ RAID グループ内の別のディスクに障害が発生した場合のディスクのブロックレベル障害は、そのセクターに対して二重エラー状態です。RAID-4 では単一障害状態に対処できますが、別のディスクのセクターが失われるということは、そのストライプには 2 つの障害ディスクがあることを意味します。このような RAID-4 では ' 不足しているデータを特定することはできませんこれは、 2 つの未知の要素を持つ 1 方程式と同等の機能です。解決できません。

最後に複数ディスクのパニック状態が発生します。これは、メディア障害のためにディスクを障害状態にすることが推奨されない理由です。ディスクがセクタでメディア障害を発生している可能性がありますが、別のディスクが同じブロックアドレスでメディア障害を発生させることはほとんどありません。しかし、ディスクに障害が発生した場合は、 * いずれかの * セクターのメディア障害が発生したことを意味し、二重ディスク障害となります。

メディアに問題があり、ディスクエラーが回復したかどうかを確認する必要があります。

メディアエラーおよびリカバリエラーは、通常のドライブ動作の一環として報告されます。ドライブ障害を示しているわけではありません。
ディスクスクラビングプロセスでディスク全体を読み取るため、一般的に、メディアスクラビング中にエラーが発生したり、エラーがリカバリされたりすることがあります。
メディアエラーが想定されるエラー率を超えた場合、ストレージヘルスモニタはドライブにフラグを設定します。この状態では予測される Failure AutoSupport メッセージが生成され、ケースが作成されます。エラー率が高いことを示すフラグが設定されたドライブでは、ケースが作成され、問題が通知されます。

メディアに問題があり、ディスクエラーが回復したかどうかを確認する必要があります。

いいえ。このエラーは通常のドライブ処理の一部であり、 Storage Health Monitor を使用した ONTAP はドライブ障害の発生を警告し、ドライブの削除を推奨します。

ネットアップのドライブを長年使用してきましたが、新しいドライブにはメディアエラーが大量に発生しています。新しいドライブに問題がありますか?

ONTAP でディスクドライブの取り外しを示すフラグが設定されていない場合、ドライブは正常に動作しています。ネットアップでは、より高密度のドライブを使用して、同じスペースに大容量のストレージを提供しています。ドライブの密度が高いほど、メディアエラーが発生する可能性が高くなります。これは正常な状態で、今後もドライブテクノロジに対応します。ネットアップは現在のドライブテクノロジを注意深く監視し、製品ファミリーの障害率が高いことが確認された場合にも対応します。

しかし、「メディアエラーが多い」ドライブを取り外すという一般的なルールはありますか?

ドライブの健常性について懸念がある場合は、 ONTAP から通知が送信されます。

メディアおよびリカバリされたディスクのエラーメッセージを解釈する

イベントログの完全なメッセージ行は、次のように表示されます。

clipboard_ebe140925f1c041e1d996608825e43684.png
 

メディアエラーが回復した例

clipboard_eae17a2cc4e1b6684c6086b1d8c6a7780.png

1 行目:アダプタドライバから、ドライブ 8a.22 、セクター 180529 の読み取り処理中に、リカバリエラー(センスデータ 1 17 、 3 )が報告されます。つまり、ドライブはこのセクターのデータを読み取るために追加の作業を実行する必要がありました。セクタは有効なままで、再割り当てされていません。3 桁のコード( 1 17 、 3 )は、ドライブによって報告されるセンスデータです。このコードは、人間が判読できる形式に変換されており、システムによって「回復されたエラー」が意味されます。
2 行目: SCSI レイヤも同じエラーを報告します。SCSI レイヤはセンスデータを 16 進数で報告し、 FRU と呼ばれる 4 番目のコードを追加します。FRU はドライブベンダーによって使用されます。

注:

  1. このエラーのリカバリには RAID は使用されません。ドライブがエラーから内部的にリカバリされ、要求された操作を実行しました。
    これは、「エラーの対象」または「メディアエラーの対象」と呼ばれることがよくあります。
  2. リカバリされたエラーに関連するセクターは再割り当てされていません。
    このセクタには、エラーが発生していない状態で再びアクセスすることも、回復したエラーが報告されることもあります。
  3. これ以上の操作は必要ありません。ドライブは引き続き正常に動作し、データは安全です。
メディアエラーの例 - 回復されていません

clipboard_ebd79024cdbed35b48f2d35f15fba07f4.png

1 行目:アダプタドライバは、ドライブ 7a.38 、セクター 37565872 で読み取り操作(オペ 0x28 )中に、回復されていない読み取りエラー(センスデータ 3 11 、 0 )を報告します。これは、このセクターから要求されたデータをドライブが提供できなかったことを意味します。3 桁のコード( 3 11 、 0 )は、ドライブによって報告されるセンスデータです。このコードは、人間が判読可能な形式に変換されており、システムによって「回復されていない読み取りエラー」が発生します。
2 行目:問題のセクタが再割り当てされることを報告します。
3 行目:アダプタドライバは、回復されていない読み取りエラーが発生したドライブのシリアル番号を報告します。
行 4 : SCSI レイヤも同じエラーを報告します。SCSI レイヤはセンスデータを 16 進数で報告し、 FRU と呼ばれる 4 番目のコードを追加します。FRU はドライブベンダーによって使用されます。

メモ: ディスクはこのエラーから回復できませんでした。このため、回復不能な読み取りエラーが報告されます。RAID が処理を引き継ぐ場所です。次のセクションを参照してください。

リカバリされていないメディアエラーをリカバリするプロセス

clipboard_e772cc192b596d382e10392b958b82bf7.png

1 行目:アダプタドライバは、ドライブ 7a.38 、セクター 37565872 で読み取り操作(オペ 0x28 )中に、回復されていない読み取りエラー(センスデータ 3 11 、 0 )を報告します。これは、このセクターから要求されたデータをドライブが提供できなかったことを意味します。3 桁のコード( 3 11 、 0 )は、ドライブによって報告されるセンスデータです。このコードは、人間が判読可能な形式に変換されており、システムによって「回復されていない読み取りエラー」が発生します。
2 行目:問題のセクタが再割り当てされることを報告します。
3 行目:アダプタドライバは、回復されていない読み取りエラーが発生したドライブのシリアル番号を報告します。
行 4 : SCSI レイヤも同じエラーを報告します。SCSI レイヤはセンスデータを 16 進数で報告し、 FRU と呼ばれる 4 番目のコードを追加します。FRU はドライブベンダーによって使用されます。
行 5 : RAID レイヤは、このディスクのブロック 4695734 で読み取りエラーを報告します。これはセクター 37565872 に保存されたブロックです。
行 6 : RAID レイヤは、不良ブロック内のデータがパリティから書き換えられたことを報告します。
行 7 :アダプタドライバがセクターが正常に再割り当てされたことを報告しています。不良セクタ 37565872 は、今後使用されません。

注: 不正ブロックがパリティから書き換えられると、それ以上の操作は不要です。ドライブは引き続き正常に動作し、データは安全です。このエラーが発生してもドライブを使用停止にしないでください。

追加情報

AdditionalInformation_Text

 

NetApp provides no representations or warranties regarding the accuracy or reliability or serviceability of any information or recommendations provided in this publication or with respect to any results that may be obtained by the use of the information or observance of any recommendations provided herein. The information in this document is distributed AS IS and the use of this information or the implementation of any recommendations or techniques herein is a customer's responsibility and depends on the customer's ability to evaluate and integrate them into the customer's operational environment. This document and the information contained herein may be used solely in connection with the NetApp products discussed in this document.