ドライブに障害が発生した場合(再構築)と、正常に障害が発生した場合( Sick Disk Copy )の比較
環境
- ONTAP ドライブ数
回答
-
システムログにエラーが表示される(メッセージ /EMS )。ディスクに問題はありますか?これは手動で失敗する必要があることを意味しますか?
ドライブにエラーが発生している場合、必ずしも問題があるとは限りません。
- ハードドライブのメーカーは、ハードドライブが発明された時代から大幅に進化してきました
- ソフトウェアとファームウェアは、エラーをよりインテリジェントかつ適切に処理するように進化しました。
- ハードドライブで 1 回限りのエラーが発生する可能性がありますが、数年後にはまだサービスを継続しています。
- ドライブで複数のエラーが連続して報告されているが、応答可能 / 使用可能である可能性があります。
- エラーが検出されると、ドライブに障害が発生してエラーが発生したかどうかを確認するしきい値が設定されます。
- ディスクで十分なエラーが発生しても、ユーザに影響がない場合は、ディスクを正常に障害処理し、テスト( Maintenance Center )に入れます。
- このテストでは、ドライブを完全にチェックアウトしてから、パスした場合はディスクをサービスに戻す必要があります。
- サービスに戻されたドライブは、最初から最後までテストされ、エラーが返されなかったことを意味します。
- エラーが発生していた場合は、内部で修正され、ドライブを修理する準備が整いました。
- ディスクが 3 回目に Maintenance Center に入った場合、ディスクは故障し、 AutoSupport メッセージがネットアップに送信されてディスクの自動交換が行われ、通常はドライブが自動的に出荷されます。
- タイムアウト / 不良セクタを報告するエラーが表示されても、レイテンシやアプリケーション / ユーザの苦情やタイムアウトが表示されない場合は、ソフトウェアが正常に動作していることを意味します。
-
エラーが表示されますが、問題があるかどうかは不明です。エラーが表示され始めてから、状況が悪化しているようです。または、アプリケーションがレイテンシを報告したときにタイムアウトが一致することに気付きましたが、通常は問題ありません。
- ドライブが不良である可能性があります。次のセクションを参照して、の内容を確認してください
statit
。 statit
ドライブレベルごとのディスク I/O レイテンシ / 使用率を把握するために使用される、ノードレベルの advanced 権限モードのコマンドですか。
-
エラーが表示されるか、タイムアウトが発生しています。ディスクに障害が発生した場合は、一定であるか、簡単に追跡できます。確認方法はありますか?
statit
このコマンドは、問題があるかどうかを判断するのに役立ちます。次のコマンドを実行します。
Cluster::> node run node01
node01> priv set advanced
node01*> statit -b
[ カウント 30 秒 ]
node01*> statit –e
これにより、非常に詳細な出力が生成されます。次の例では、該当するディスクが強調表示されています。
disk ut% xfers ureads--chain-usecs writes--chain-usecs cpreads-chain-usecs greads--chain-usecs gwrites-chain-usecs
/aggr3/plex0/rg1:
3a.61 64 118.75 35.96 5.81 4376 45.17 4.72 5971 37.62 8.06 2178 0.00 .... . 0.00 .... .
4a.76 100 118.26 34.88 5.67 16441 46.64 5.61 10991 36.74 7.88 6229 0.00 .... . 0.00 .... .
3a.45 68 126.40 43.41 5.35 4810 47.52 4.51 6050 35.47 7.60 2167 0.00 .... . 0.00 .... .
4a.76
には、周囲のディスクと次の点に注意してください3a.61
3a.45
。
-
UT% またはディスクのアクティブな割合が高くなります
-
URead 、 Write 、および CPready の各 USEC 列のレイテンシが 4 ~ 12 ミリ秒向上します
- ディスクが実際にアプリケーション / ユーザの問題を引き起こしていたため、障害が発生する価値がありました。
- これは、ディスクの障害が発生した場合の対処に役立つコマンドです。
statit
ディスクに問題があるかどうかを確認するには、を何度か繰り返すことをお勧めします。- 反復するたびに出力が高くなり、他にハードウェアの問題がない場合は、ドライブが不良です。
- このディスクがポップアップ表示されるかどうかを確認するには、システムログを確認する必要があります。
- また、ドライブが特定の時間にのみタイムアウトし、アプリケーションが問題を報告する場合もあります。
- ディスク障害が必要な場合があります。
statit
これは特定の時点でしか発生statit
しないため、有用ではない場合があり、出力を取得できない場合があります。
-
問題があると判断しました。正常に障害が発生した場合や、強制的に削除してリカバリを実行した場合は、どちらが適切ですか
アグリゲートの負荷が非常に高い場合は、障害が完了するまでコピーまたは障害のいずれかが発生します。
- RAID グループ内の 1 つ
statit
のディスクに障害が発生し、各ディスクの反復でレイテンシ / 使用率が常に高くなり、断片化 / ワークロードが原因ではないシナリオに適している場合は、通常、リビルドの方が適しています。-i
違いはフラグです。次のコマンドを実行します。
cluster1::> storage disk fail -disk 1.1.16 -i true
WARNING: The system will not prefail the disk and its contents will not be
copied to a replacement disk before being failed out. Do you want to
fail out the disk immediately? {y|n}: y
disk fail [-i] [-f] <disk_name> Filer> disk fail -i -f 1a.01.16
- 上記の 2 番目の例のように、ディスクに断続的な問題が発生している場合(つまり、 1 時間に 1 回だけ発生する場合)は、一定ではありません。 正常な障害は、ディスクに問題がほとんど表示されておらず、問題が 1 時間に 1 分間しか発生しないことがあるため、より良いオプションです。
- 複数のディスクで RAID グループに問題が発生している場合、この状況は、 RAID グループ内のディスク数、各ディスクの不良状況、システムの負荷によって異なります。
- リカバリ / 再構築にかかる時間はさまざまです。この場合、バックアップ / DR 計画はよりリスクが高く、データの損失 / ダウンタイムの原因となるため、バックアップ / DR 計画が存在することを確認してください。その場合は、一般的な推奨事項はありません。ネットアップのサポート担当者やアカウントチームは、最適なガイダンスを提供するために関与する必要があります。
- 不明な場合[1]は、ネットアップ・テクニカル・サポートにお問い合わせください。
追加情報
statit
コマンドを実行してディスク I/O 統計を監視するためにコマンドを使用する方法の詳細については、 KB の記事「ディスクレベルの応答時間を評価する方法」を参照してください。
推奨されるベストプラクティス: :
-
ディスクの負荷を最大 IOPS の 50 ~ 70% 未満に抑えるようにしてください。ディスクに障害が発生しても、ユーザーのレイテンシは発生しません。このしきい値を超えてプッシュする必要がある場合は、フォールバックを実行するように計画してください。
-
最新の推奨設定がすべて設定されていること、ハードウェアに最新の推奨 ONTAP バージョンがインストールされていること、およびドライブ、シェルフモジュール、および ACP ( SAS の場合)ファームウェアが最新であることを確認します。
-
マルチパス HA とケーブル接続の推奨されるベストプラクティスをすべて実行します。
-
Data ONTAP の負荷やバージョンが適切なレベルにあることを確認するためにレビューが必要な場合は、ネットアップのアカウントチームにお問い合わせください。
-
ネットアップサポートにご相談
statit
の場合は、パフォーマンスアーカイブまたは最低期間中にご提出いただくことを推奨します。