CONTAP-176582:再構築中にディスク障害が発生すると遅延が発生する
問題
RAID再構築中のディスクで過度のメディアエラーが発生した場合、ONTAPはRAID再構築を実行していないディスクと比較して、ディスクの障害発生までの時間を長くします。これは、ONTAPが複数のディスクに障害が発生する可能性を回避しようとしているため、現時点では設計上の動作です。
ディスク層でのこの遅延により、読み取り/書き込みの待ち時間が長くなり、CP が長くなります。
これには通常、EMS で次のエラーが伴います。
1.[<node_name>: disk_server_0: shm.threshold.mediumErrors:error]: shm: ディスク 9a.11.10 は、10 分間に中程度のエラーしきい値を超えました。
2.[<node_name>: disk_server_0: scsi.debug:debug]: shm_setup_for_failure ディスク 9a.11.10 (S/N WBN6BQ3N) エラー 2h
3.[<node_name>: disk_server_0: scsi.debug:debug]: shm_setup_for_failure ディスク 9a.11.10 (S/N WBN6BQ3N) エラー 20h
4.[<node_name>: disk_latency_monitor: shm.threshold.highIOLatency:error]: ディスク 9a.11.10 は平均 IO レイテンシしきい値を超えているため、障害が推奨されます。
5.[<node_name>: ディスクレイテンシーモニター: scsi.debug:debug]: shm_setup_for_failure ディスク 9a.11.10 (S/N WBN6BQ3N) エラー 200000h
6.[<node_name>: wafl_exempt00: wafl.cp.toolong:error]: アグリゲート <aggr_name> で長い CP が発生しました。
7.[<node_name>: disk_server_0: scsi.debug:debug]: shm_setup_for_failure ディスク 9a.11.10 (S/N WBN6BQ3N) エラー 40000000h
注意: 次のエラー コードは緊急でないエラー コードであるため、ONTAP はディスクを直ちに障害状態にしません。
- 0x00000002
- 0x00000020
- 0x00200000