CF_hwassist の missedKeepAlive タイムアウトと許容期間とは何ですか?
環境
- NetApp AFFおよびFASシステム
- ONTAP 9
回答
cf_hwassist_missedKeepAlive
インシデントは 、hw-assistパケットが送信された60秒後にEMSに記録されます。
hw-assistパケットは UDPによって 180秒ごとに送信されるため、 パケット が送信されても受信されてもパケットが再送信されることはありません。UDPパケットがドロップされた場合、ブロックされた場合、ウェッジされた場合、リダイレクトされた場合など。ノードはそれを受け取らず、次のノードが送信されるまで180秒だけ待ちます。
そのため、 cf_hwassist_recvKeepAlive
120秒以内に表示されるイベントは cf_hwassist_missedKeepAlive
無視してかまいません。
Sat Nov 04 22:07:44 +0900 [Nodename-02: cf_hwassist: cf.hwassist.missedKeepAlive:debug]: HW-assisted takeover missing keep-alive messages from HA partner (Nodename-01).
Sat Nov 04 22:09:14 +0900 [Nodename-02: cf_hwassist: cf.hwassist.recvKeepAlive:debug]: hw_assist: Received hw_assist KeepAlive alert from partner(Nodename-01).
追加情報
- の原因では、
cf_hwassist_missedKeepAlive
お客様のネットワーク環境を経由するe0MのIPおよびポート(デフォルトは4444)を使用してhw-assitが設定されて送信されるため、このタイプの障害のほぼすべてのインスタンスがネットワークでパケットが破棄されたことが原因です。 - コマンドでhwassist-health-check-intervalを確認します。
aff200-2n-dal-1::> storage failover show -fields hwassist,hwassist-partner-ip,hwassist-partner-port,hwassist-health-check-interval,hwassist-retry-count,hwassist-status
node hwassist hwassist-partner-ip hwassist-partner-port hwassist-health-check-interval hwassist-retry-count hwassist-status
------------- -------- ------------------- --------------------- ------------------------------ -------------------- ---------------
aff200-dal-1a true 10.128.227.184 4444 180 2 active
aff200-dal-1b true 10.128.227.183 4444 180 2 active
2 entries were displayed.