cf_hwassist_missedKeepAliveのタイムアウトと許容期間とは何ですか?
環境
- NetApp AFFおよびFASシステム
- ONTAP 9
回答
cf_hwassist_missedKeepAlive
インシデントは、hw-assist パケットが送信されてから 60 秒後に EMS に記録されます- hw-assist パケットは UDP によって 180 秒ごとに送信されます:
- パケットが送信され、受信されない場合、パケットの再送信はありません
- UDPパケットがドロップ、ブロック、ウェッジ、リダイレクトなどされ、ノードがそれを受信しない場合、ノードは次のパケットが送信されるまで180秒間待機します
- そのため、
cf_hwassist_recvKeepAlive
イベントがcf_hwassist_missedKeepAlive
後120秒以内に発生している場合は、無視しても問題ありません
[Nodename-02: cf_hwassist: cf.hwassist.missedKeepAlive:debug]: HW-assisted takeover missing keep-alive messages from HA partner (Nodename-01).
[Nodename-02: cf_hwassist: cf.hwassist.recvKeepAlive:debug]: hw_assist: Received hw_assist KeepAlive alert from partner(Nodename-01).
追加情報
cf_hwassist_missedKeepAlive
の原因は、hw-assistがe0MのIPとポートで設定および送信し、お客様のネットワーク環境を経由するため、この種の障害のほぼすべてのインスタンスは、ネットワークドロップパケットが原因です。- プラットフォームに応じて、デフォルトのhwassistポートは4444または162です(Hwassist IPアドレスは192.0.2.84および192.0.2.85に設定されています - NetApp ナレッジベース)
- コマンドで hwassist-health-check-interval を確認します
aff200-2n-dal-1::> storage failover show -fields hwassist,hwassist-partner-ip,hwassist-partner-port,hwassist-health-check-interval,hwassist-retry-count,hwassist-status
node hwassist hwassist-partner-ip hwassist-partner-port hwassist-health-check-interval hwassist-retry-count hwassist-status
------------- -------- ------------------- --------------------- ------------------------------ -------------------- ---------------
aff200-dal-1a true 10.128.227.184 4444 180 2 active
aff200-dal-1b true 10.128.227.183 4444 180 2 active
2 entries were displayed.