メインコンテンツへスキップ

ウォッチドッグリセット(WDR)の対処方法

Views:
2,306
Visibility:
Public
Votes:
3
Category:
fas-systems
Specialty:
hw
Last Updated:

 

環境

  • ONTAP 9
  • すべてのFAS/AFFシステム
  • watchdogリセットリブートイベント
  • ノードからのHA Group Notification(REBOOT(panic))ALERT
    • PANIC  : CPU上のwatchdog nmi
  • HAグループ通知(REBOOT(watchdogリセット))ALERT

概要

watchdogリセットとは何ですか

watchdogリセットは、ほとんどのコンピュータシステムで、回復不能なエラーが発生した場合や応答しなくなった場合にシステムを自動的に再起動するために使用されるメカニズムです。

watchdogタイマーの概念は、1つの企業だけでなく、コンピュータハードウェアおよびネットワーク業界全体で広く使用されています。これは、人間の介入なしに予期しない問題からシステムが回復できるようにするため、標準的な方法です。 

watchdogリセットが発生した場合は、下記の手順を使用して再起動の原因を理解することが重要であり、ログ分析に基づき根本原因がハードウェアの問題でない限り、ハードウェアは交換しないでください。

  • その機能は、システムが回復不能なシステムエラーが発生した場合にサーバーの自動再起動として機能することです。
  • NetAppによって実装されているwatchdogは、各レベルの時間に関連付けられた異なるアクションを持つ2レベルのタイマーを使用します。
  • Level 1/Level 2 watchdogの動作はNetApp独自のものではなく、ハードウェア業界全体で使用されています。
レベルタイプ 概要
レベル1:タイムアウト

ストレージアプライアンスは、マスク不可能な割り込みに応答してパニックになり、コアをダンプしようとします。

  • タイマーが1.5秒以内にリセットされない場合、L1 watchdogが発行されます。
  • L1 watchdogが正常に発行されると、システムはサービスに復帰し、コアファイルが書き込まれ、NetAppがハングの根本原因を特定できるようになります。 
レベル2:リセット

ストレージアプライアンスは、タイマーから送信されるハードリセット信号によってリセットされます。 

  • L1 watchdogの後2秒以内にwatchdogタイマーがリセットされない場合、L2 watchdogが発行されます。
  • L2 watchdogはCoreダンプを生成しません。
  • watchdogタイムアウトまたはwatchdogリセットから「recover」する必要はありません。これらのイベントはどちらも他の障害に対するリカバリーメカニズムです。
    • その目的は、watchdogイベントの原因となった障害を特定することです。
watchdog NMIパニックの特定方法

パニックメッセージは、以下のONTAPイベントログまたはSP/BMC「system log」コマンドの出力で確認できます。

::> event log show -severity * -message-name panic*

  • テイクオーバーを実行したUpノード

Fri Nov 18 01:20:54 -0600 [NetApp01: cf_main: cf.fsm.takeover.panic:alert]: Failover monitor: takeover attempted after partner panic.
Fri Nov 18 01:21:37 -0600 [NetApp01: cf_main: callhome.sfo.takeover.panic:EMERGENCY]: Call home for CONTROLLER TAKEOVER COMPLETE PANIC

  • リブート後のパートナーノード

Fri Nov 18 01:42:35 -0600 [NetApp02: splog_main: mgr.stack.string:notice]: Panic string: watchdog nmi on cpu 3, hang cpu is 0 in SK process wafl_scan_exempt on release 9.9.1P7 (C)

プラットフォーム 記事

FAS8020 / FAS8040 / FAS8060 / FAS8080 / AFF8020 / AFF8040 / AFF8060 / AFF8080

FAS8020 / FAS8040 / FAS8060 / FAS8080 / AFF8020 / AFF8040 / AFF8060 / AFF8080でのL2 watchdogタイマーリセットの処理

FAS2520 / FAS2552 / FAS2554

FAS2520 / FAS2552 / FAS2554でのL2 watchdogタイマーリセットの処理
AFF A700/FAS9000 AFF A700およびFAS9000プラットフォームでのL2 watchdogタイマーリセットの処理

FAS2620 / FAS2650 / AFF A200

FAS2620 / FAS2650 / AFF A200でのL2 watchdogタイマーリセットの処理

AFF A220 / AFF A150 / AFF C190 / FAS2750 / FAS2720 / FAS2820

AFF A220 / AFF A150 / AFF C190 / FAS2750 / FAS2720のL2 watchdogリセットの処理

AFF A400 / AFF C400 / FAS8700 / FAS8300

AFF A400 / AFF C400 / FAS8700 / FAS8300でのL2 watchdogタイマーリセットの処理
AFF A700s用 AFF A700sプラットフォームでのL2 watchdogタイマーリセットの処理
AFF A300/FAS8200 FAS8200およびAFF A300プラットフォームでのL2ウォッチドッグリセットの処理

AFF A800 / AFF C800

AFF A800およびAFF C800プラットフォームでのL2 watchdogタイマーリセットの処理
AFF A320用 AFF A320プラットフォームでのL2 watchdogタイマーリセットの処理
AFF A900/FAS9500 AFF A900およびFAS9500プラットフォームでのL2 watchdogタイマーリセットの処理
AFF A250 / FAS500f / AFF C250 AFF A250 / FAS500f / AFF C250でのL2ウォッチドッグリセットの処理
FAS3250 FAS3250でのL2 watchdogタイマーリセットの処理
FAS90 / FAS70 / ASA A1K / ASA A90 / ASA A70 / AFF A1K / AFF A90 / AFF A70 / AFF C80 FAS90 / FAS70 / ASA A1K / ASA A90 / ASA A70 / AFF A1K / AFF A90 / AFF A70 / AFF C80でのL2 watchdogタイマーリセットの処理

追加情報

詳細については、NetApp Technical Supportに連絡し、この記事と収集されたデータを参照してください。

 

NetApp provides no representations or warranties regarding the accuracy or reliability or serviceability of any information or recommendations provided in this publication or with respect to any results that may be obtained by the use of the information or observance of any recommendations provided herein. The information in this document is distributed AS IS and the use of this information or the implementation of any recommendations or techniques herein is a customer's responsibility and depends on the customer's ability to evaluate and integrate them into the customer's operational environment. This document and the information contained herein may be used solely in connection with the NetApp products discussed in this document.