メインコンテンツまでスキップ

Coming soon...New Support-Specific categorization of Knowledge Articles in the NetApp Knowledge Base site to improve navigation, searchability and your self-service journey.

FAS システムと AFF システムの修正可能なメモリエラーのトラブルシューティング方法

Views:
1,245
Visibility:
Public
Votes:
0
Category:
ontap-9
Specialty:
hw
Last Updated:

環境

  • ONTAP 9
  • Data ONTAP 8
  • AFF / FAS プラットフォーム
  • DIMM交換ガイド

回答

Active IQ を調べて、 CECC メモリがシステムに影響を与えるかどうかを確認します。

プラットフォームとONTAP のバージョンに応じて適切なガイドを選択してください。

プラットフォーム システムまたはNVRAM ONTAP バージョン ガイド
  • AFF A900 / FAS9500
  • AFF A800
  • AFF A700s
  • AFF A700 / FAS9000
  • AFF A400 / FAS8300 / FAS8700
  • AFF A300 / FAS8200
  • AFF A250 / FAS500f
  • AFF A220 / AFF C190 / FAS27x0
  • AFF A200 / FAS26x0
  • AFF80x0 / FAS80x0
システムDIMM
  • 9.1P18以降のPリリース
  • 9.3P11以降のPリリース
  • 9.4P6以降のPリリース
  • 9.5 以降のメジャーリリース

動的なしきい値を使用したONTAP の修正可能なメモリエラー

  • 9.1P17以前のPリリース
  • 9.2すべてのPリリース
  • 9.3P10以前のPリリース
  • 9.4P5以前のPリリース
静的なしきい値を使用したONTAP バージョンでの修正可能なメモリエラーのレポート
NVRAM DIMM

9.1以上

ONTAP のNVRAM DIMMの修正可能なメモリエラー

  • FAS25x0
  • FAS22x0
  • V/FAS32x0
  • v/FAS62x0
システムまたはNVRAM 9.1以上 ONTAP の62XX、32XX、25XX、および22XXシステムのメモリエラーを修正できます
  • FAS80x0
  • FAS25x0
  • FAS22x0
  • V/FAS32x0
  • v/FAS62x0
システムまたはNVRAM

Data ONTAP 8 7-Mode

Data ONTAP 8で修正可能なメモリエラー

 

 

追加情報

注:

  • 修正可能なECCエラーを報告しているDIMMは、EMSログに修正可能なECCエラーが記録されている場合、または「CriticalCECCCountMemErrAlert」システムイベントおよびAutoSupport メッセージが記録されている場合にのみ交換しないでください。
  • NetApp ストレージシステムは、メインシステムメモリと NVRAM/NVMEM サブシステムの両方に ECC メモリモジュール( DIMM )を使用します。メモリエラーは、メモリサブシステムのハードウェアによって発生中に修正され、システムのパフォーマンスにほとんど影響を与えません。
    • これまで、AFF / FASストレージシステムで実行されていたONTAP では、システムの前回のリブート以降のしきい値500エラーに基づいて、「過剰な」CECCメモリエラーについてシステム管理者に警告するポリシーが長年採用されていました。
    • ネットアップとそのハードウェアコンポーネントベンダーが修正可能なECC(CECC)メモリエラーを詳細に分析した結果、 CECCメモリエラーは、特に最新世代のメモリコントローラとダイナミックランダムアクセスメモリ(DRAM)では、修正不可能なECC(UECC)メモリエラーによるシステム停止の予測には適していないことが判明しました。
    • また、大量のメモリエラーの監視、ログ記録、修正に使用される CPU サイクルは、システムパフォーマンスにほとんど影響しません。
  • そのため、現在サポートされている多くのAFF/FASシステムでONTAP で使用されているCECCメモリエラーの監視アルゴリズムが動的監視アルゴリズムに変更され、「CriticalCECCCountMemErrAlert」コントローラヘルスモニタアラートと対応する「ヘルスモニタ」AutoSupport メッセージをトリガーするしきい値が大幅に高く設定されました。
    • 古いポリシーを使用してトリガーされたアラートは、フォールスポジティブとみなされる場合があります。メモリ交換の指標として使用することはできません。これは、明確なメリットを得ずに不要なハードウェアメンテナンスを行うためです。

 

  • 動的アルゴリズムを使用する ONTAP のバージョンでは、 CECC メモリエラーが引き続き ONTAP のイベントログに定期的に記録されます。ただし、 DIMM の交換の必要性を判断する上では、この問題は関係ありません。
  • 修正可能な ECC エラーは、修正不可能な ECC エラーが発生することを示す指標ではありません。   修正不可能なメモリエラーが発生すると、システムが停止(パニック状態)します。システムが停止すると、修正不可能なエラーが発生した DIMM をパニックメッセージで呼びます。詳細については、次を参照してください。
  • 最新の ONTAP プラットフォームの BIOS / LOADER リリースには、メモリ管理の機能拡張が含まれています。これら[1][2][3]の更新により、修正不可能な ECC エラーに対する耐障害性が向上するとともに、バグ 1195242 、 1195243 、 1195423 などのブート時に DIMM をマッピングできるシナリオが減少します。BIOS のバージョンが AFF または FAS システムの最新バージョンでない場合は、 BIOS を最新バージョンに更新することを推奨します。  お使い のシステムの最新の BIOS / LOADER バージョンは、「システムファームウェアおよび診断ダウンロード」ページで確認してください。
  • JEDEC規格のNVDIMMモジュールは、次のプラットフォームで使用されています。
    • AFF A800、AFF A400、AFF A320
    • FAS8700、FAS8300
Scan to view the article on your device