ウォッチドッグリセット(WDR)の処理方法
環境
- ONTAP 9
- All FAS / AFFシステム
- watchdogリセットリブートイベント
- HA Group Notification from node(reboot(panic))アラート
- パニック :CPUのウォッチドッグNMI
- HA Group Notification(reboot(watchdog reset))アラート
説明
ウォッチドッグリセットとは何ですか?
ウォッチドッグ リセットは、回復不可能なエラーが発生した場合や応答しなくなった場合にシステムを自動的に再起動するために、ほとんどのコンピュータ システムで使用されるメカニズムです。
ウォッチドッグタイマーの概念は、コンピュータハードウェアおよびネットワーク業界で広く採用されており、特定の企業だけにとどまりません。これは、システムが予期せぬ問題から人間の介入なしに回復できるようにするため、標準的な手法となっています。
ウォッチドッグ リセットが発生した場合は、以下にリストされている手順を使用して再起動の原因を把握することが重要です。利用可能なログ分析に基づいて根本原因がハードウェアの問題でない限り、ハードウェアを交換する必要はありません。
- この機能は、システムに回復不能なシステムエラーが発生した場合に、サーバを自動的に再起動する機能です。
- NetAppによって実装されるウォッチドッグは、時間の各レベルに関連付けられた異なるアクションを持つ2レベルのタイマーを使用します。
- レベル1 /レベル2ウォッチドッグ動作はNetApp独自のものではなく、ハードウェア業界全体で使用されています。
レベルタイプ | 説明 |
レベル1:タイムアウト |
マスク不可能な割り込みが発生すると、ストレージアプライアンスはパニック状態になり、コアがダンプされます。
|
レベル2:リセット |
ストレージアプライアンスは、タイマーから送信されたハードリセット信号によってリセットされます。
|
ウォッチドッグNMIパニックの識別方法
パニック メッセージは、以下のように Ontap イベント ログまたは SP/BMC の「システム ログ」コマンド出力に表示されます。
event log show -severity * -message-name panic*
- テイクオーバーを実行した稼働ノード
Fri Nov 18 01:20:54 -0600 [NetApp01: cf_main: cf.fsm.takeover.panic:alert]: Failover monitor: takeover attempted after partner panic.
Fri Nov 18 01:21:37 -0600 [NetApp01: cf_main: callhome.sfo.takeover.panic:EMERGENCY]: Call home for CONTROLLER TAKEOVER COMPLETE PANIC
- ハアトナアノオト、リブート後
Fri Nov 18 01:42:35 -0600 [NetApp02: splog_main: mgr.stack.string:notice]: Panic string: watchdog nmi on cpu 3, hang cpu is 0 in SK process wafl_scan_exempt on release 9.9.1P7 (C)
FAS90 / FAS70 / ASA A1K / ASA A90 / ASA A70 / AFF A1K / AFF A90 / AFF A70 / AFF C80 | FAS90 / FAS70 / ASA A1K / ASA A90 / ASA A70 / AFF / AFF A90 / AFF A70 / AFF A1K C80でのL2ウォッチドッグリセットの処理 |
のとう
追加情報
さらにサポートが必要な場合は、NetAppテクニカルサポートに連絡して、収集したデータとともにこの記事を参照してください。