ウォッチドッグリセット(WDR)の対処方法
環境
- ONTAP 9
- すべてのFAS/AFFシステム
- watchdogリセットリブートイベント
- ノードからのHA Group Notification(REBOOT(panic))ALERT
- PANIC : CPU上のwatchdog nmi
- HAグループ通知(REBOOT(watchdogリセット))ALERT
概要
watchdogリセットとは何ですか
watchdogリセットは、ほとんどのコンピュータシステムで、回復不能なエラーが発生した場合や応答しなくなった場合にシステムを自動的に再起動するために使用されるメカニズムです。
watchdogタイマーの概念は、1つの企業だけでなく、コンピュータハードウェアおよびネットワーク業界全体で広く使用されています。これは、人間の介入なしに予期しない問題からシステムが回復できるようにするため、標準的な方法です。
watchdogリセットが発生した場合は、下記の手順を使用して再起動の原因を理解することが重要であり、ログ分析に基づき根本原因がハードウェアの問題でない限り、ハードウェアは交換しないでください。
- その機能は、システムが回復不能なシステムエラーが発生した場合にサーバーの自動再起動として機能することです。
- NetAppによって実装されているwatchdogは、各レベルの時間に関連付けられた異なるアクションを持つ2レベルのタイマーを使用します。
- Level 1/Level 2 watchdogの動作はNetApp独自のものではなく、ハードウェア業界全体で使用されています。
レベルタイプ | 概要 |
レベル1:タイムアウト |
ストレージアプライアンスは、マスク不可能な割り込みに応答してパニックになり、コアをダンプしようとします。
|
レベル2:リセット |
ストレージアプライアンスは、タイマーから送信されるハードリセット信号によってリセットされます。
|
watchdog NMIパニックの特定方法
パニックメッセージは、以下のONTAPイベントログまたはSP/BMC「system log」コマンドの出力で確認できます。
::> event log show -severity * -message-name panic*
- テイクオーバーを実行したUpノード
Fri Nov 18 01:20:54 -0600 [NetApp01: cf_main: cf.fsm.takeover.panic:alert]: Failover monitor: takeover attempted after partner panic.
Fri Nov 18 01:21:37 -0600 [NetApp01: cf_main: callhome.sfo.takeover.panic:EMERGENCY]: Call home for CONTROLLER TAKEOVER COMPLETE PANIC
- リブート後のパートナーノード
Fri Nov 18 01:42:35 -0600 [NetApp02: splog_main: mgr.stack.string:notice]: Panic string: watchdog nmi on cpu 3, hang cpu is 0 in SK process wafl_scan_exempt on release 9.9.1P7 (C)
FAS90 / FAS70 / ASA A1K / ASA A90 / ASA A70 / AFF A1K / AFF A90 / AFF A70 / AFF C80 | FAS90 / FAS70 / ASA A1K / ASA A90 / ASA A70 / AFF A1K / AFF A90 / AFF A70 / AFF C80でのL2 watchdogタイマーリセットの処理 |
追加情報
詳細については、NetApp Technical Supportに連絡し、この記事と収集されたデータを参照してください。