CONTAP-449185: パニック: フェイルオーバー モニター: 遷移できません - リリース 9.9.1P16 (C) の SK プロセス cf_main でテイクオーバー プロセスがハング (wafl) しています
問題
SnapMirrorの更新中に、ソースノードで複数の「メモリ不足」(OOM)エラーが発生し、その後SnapMirrorが失敗しました。最終的に、フェイルオーバーの試行によりパートナーノードでパニックが発生しました。
CPU#10 でパニック: パニック: フェイルオーバー モニター: 遷移できません - テイクオーバー プロセスがハング (wafl) しました (SK プロセス cf_main、リリース 9.9.1P16 (C)、2025 年 4 月 29 日火曜日 15:40:36 CST)
このノードはパニックに陥り、パートナーを乗っ取り始めました。
火曜日 4月29日 15:30:34 +0800 [node01: cf_firmware: cf.fm.partnerFwTransition:info]: パラメータ: {'prevstate': 'SF_UP', 'newstate': 'SF_SPARECORE', 'progresscounter': '2'}
火曜日 4月29日 15:30:34 +0800 [node01: cf_main: cf.fsm.firmwareStatus:info]: フェイルオーバーモニター: パートナー スペアコアをダンプ中
Tue Apr 29 15:30:34 +0800 [node01: cf_main: cf.fsm.takeover.panic:alert]: フェイルオーバー モニター: パートナー パニック後にテイクオーバーが試行されました。
火曜日 4月29日 15:30:34 +0800 [node01: cf_main: cf.fsm.stateTransit:info]: フェイルオーバーモニター: UP --> TAKEOVER
火曜日 4月29日 15:30:34 +0800 [node01: cf_takeover: ha.takeover.stateChng:debug]: パラメータ: {'old_state': 'NOT_IN_TAKEOVER', 'new_state': 'IN_CFO_TAKEOVER'}
火曜日 4月29日 15:30:34 +0800 [node01: cf_takeover: cf.fm.takeoverStarted:notice]: フェイルオーバーモニター: テイクオーバーが開始されました
...
火曜日 4月29日 15:30:34 +0800 [node01: cf_takeover: cf.fm.takeoverCommitted:debug]: フェイルオーバーモニター: テイクオーバーがコミットされました
Tue Apr 29 15:30:34 +0800 [node01: ThreadHandlerrun: clam.update.partner.state:info]: ノード (ID=1000) 上の CLAM がパートナー (ID=1001) のフェイルオーバー状態を to に更新しました。
...
Tue Apr 29 15:31:00 +0800 [node01: monitor: monitor.globalStatus.ok:notice]: このノードはnode02を引き継ごうとしています。
しかし、10 分後にトランジット イベントがタイムアウトし、このノードがパニックに陥りました。