ディスク障害後の接続の切断
環境
- ハードウェアディスク障害
- Long Consistency Point(CP)エラーが報告される
- データ停止
問題
- お客様側で数秒間、データ停止に気付きました。例:
- NFSエクスポート切断
- CIFSキョウユウニアクセスデキナイ
- 欠落しているVM
- ハードウェアディスク障害が報告されました。例:
[node_name: config_thread: raid.config.filesystem.disk.not.responding:notice]: File system Disk /aggr_name/plex0/rg0/0a.0.1 Shelf 0 Bay 1 [...] is not responding.
[node_name: monitor: monitor.globalStatus.nonCritical:error]: Disk on adapter FPF1939S03T:9, shelf 1, bay 5, not responding.
- データアグリゲートまたはルートアグリゲートで、長時間のCPのONTAPイベントエラーが報告されました。例:
[node_name: wafl_exempt13: wafl.cp.toolong:error]: Aggregate aggr0 experienced a long CP.
[node_name: wafl_exempt16: wafl.cp.toolong:error]: Aggregate aggr_name experienced a long CP.
- ディスクへのデータのフラッシュ時に、Sktraces AutoSupportセクションにToo Long Consistency Point(CP;整合ポイント)フェーズ2が報告されました。例:
2024-1-1T00:01:01Z 12345678912345678 [5:0] CRUISE_6: CP toolong: aggr0[5678901] CP_P2_FLUSH 498765ms
2024-1-1T01:01:05Z 23456789123456789 [2:0] CRUISE_6: CP toolong: aggr_name[5789012] CP_P2_FLUSH 512345ms