SPハートビートとハードウェアアシストキープアライブの違いは何ですか?
環境
- AFFシステム
- ASAシステム
- FASシステム
- BMC(ベースボード管理コントローラ)
- SP(サービスプロセッサ)
- ONTAP 9
回答
SP -ハートビート
- SPハートビートは 、NetAppストレージコントローラ内のSP / BMCのヘルスとステータスを監視するために使用されるメカニズムです。
- この機能は、SP / BMCの可用性と応答性を検証するように設計されています。
- SP / BMCは、ハードウェアの管理と監視に重要な役割を果たします。
温度およびその他の環境センサーデータは、SP / BMC内でキャプチャされ、ONTAPオペレーションシステムに中継されます。 - SPハートビートは 、ローカルONTAPとローカルSP / BMC間の専用の「内部」接続を使用します。
- ハートビート信号が連続して10分間受信されない場合、ONTAPはローカルノードの制御されたシャットダウンをトリガーします。
- このシャットダウンは意図的なものであり、NetAppコントローラを損傷から保護するために機能します。
- このようなイベントが発生すると、ローカルノードで「環境的」な自動シャットダウンが開始され、HAパートナーノードで自動テイクオーバーが開始されます。
例:
Sat Apr 19 14:52:02 +0200 [cluster-01: spmgrd: callhome.sp.hbt.missed:notice]: Call home for SP HBT
MISSED
Sat Apr 19 15:00:00 +0200 [cluster-01: statd: kern_uptime_filer_1:notice]: params: {'msg': ' 3:00pm up 358 days
Sat Apr 19 15:02:23 +0200 [cluster-01: spmgrd: callhome.sp.hbt.stopped:alert]: Call home for SP HBT STOPPED
Sat Apr 19 15:04:47 +0200 [cluster-01: env_mgr: sp.ipmi.lost.shutdown:EMERGENCY]: SP heartbeat stopped and cannot be recovered. To prevent hardware damage and data loss, the system will shut down in 10 minutes
Sat Apr 19 15:14:47 +0200 [cluster-01: env_mgr: monitor.shutdown.emergency:EMERGENCY]: Emergency shutdown: Environmental Reason Shutdown (System reboot to recover the BMC)
Sat Apr 19 15:14:47 +0200 [cluster-01: mgwd: mgwd.notify.halt.result:info]: MGWD able to notify CLAM on its HA partner node that this node is undergoing a planned shutdown (reason: E). Error: -
- ハードウェアアシストキープアライブ(ハードウェアアシストキープアライブ)は、お客様のイーサネットネットワークを介した外部通信です。
- クラスタノード管理ポートとHAパートナーSP / BMCの間に通信が確立されます。
- 通常、この通信はTCPポート4444を使用し、クラスタの可用性を確保するための重要なメカニズムとして機能します。
- ハイアベイラビリティ構成では、NetAppストレージコントローラは定期的なステータスチェックを使用してHAパートナーの健全性を監視します。
- ハードウェアアシストテイクオーバー機能が有効になっていない場合にNetAppストレージコントローラで障害が発生すると、HAパートナーノードはメールボックスディスク通信のみをリレーします。
- 応答がないことを確認し、テイクオーバーを開始します。
- デフォルトでは、このような テイクオーバーを開始すると、障害が発生してから最大15秒かかることがあります。
- ハードウェアアシストテイクオーバー機能は、ノードのSP / BMCを使用して障害を検出し、 テイクオーバープロセスをより迅速に開始することで、プロセスを強化します。
- ハードウェアアシストテイクオーバー機能が有効になっている場合、フェイルオーバーの検出時間は1秒未満です。
- SP / BMCは、停電、電源の再投入、L2ウォッチドッグのリセット、POSTエラー、ノードのシャットダウンなど、さまざまな障害についてローカルシステムを監視します。
- 障害が検出されると、SP /はすぐにBMCトラップの形式でHAパートナーノードにアラートを送信します。
- SNMPトラップを受信すると、HAパートナーはSNMPトラップメッセージからアラートメッセージを抽出し、テイクオーバーの開始などの適切な処理を実行します。
- ハードウェアアシストテイクオーバーは、リモート管理(SP / BMC)を使用するシステムではデフォルトで有効になります。
- ユーザは、次のコマンドを使用して、この機能の現在のステータスと設定を表示できます。
::>storage failover hwassist show
- この機能を無効にすると、HAパートナーノードが応答しないことが原因でテイクオーバーが実行される可能性がありますが、引き続き機能します。
- ハードウェアアシストのキープアライブ機能は必須ではありませんが、有効にすることを強く推奨します。
追加情報