LACP ポートチャネル / インターフェイスグループのトラブルシューティング
に適用されます
ネットワークスイッチ
回答
システムに影響がある場合は、 Active IQ を確認してください
ポートチャネルグループとは何ですか。
ポートチャネルグループは、集約スループットの向上やネットワークの耐障害性の向上を目的として、複数の物理イーサネットポートを集約したセットです。EtherChannel 、トランク、ポートバンドル、または LACP とも呼ばれます。IEEE (米国電気電子学会interface groups / ifgrp
)では、 802.3ad と 802.3ax を指定したポートチャネルグループの標準が定義されています。ポートチャネルグループは一般的にスイッチ側の構成を指し、ネットアップは「」または仮想インターフェイス( VIF )のレガシー名を使用します。ネットアップ側のインターフェイスグループには、次の 3 種類があります。
-
SystemID : LAG の各メンバーは、 LacPDU に SystemID を送信します。スイッチに接続されている論理デバイスが 1 つだけであることを示すために、 Filer のすべてのメンバー・ポートは同じシステム ID を送信する必要があります。同様に、スイッチの各メンバーポートは同じシステム ID を送信する必要があります。ただし、スイッチと Filer のシステム ID が異なることが予想されます。
-
メンバーポートが同じ systemID を送信しない場合、一方の側は LACP でサポートされていない 2 つの異なる論理デバイスを集約しようとしています。たとえば、仮想ポートチャネル( vPC )がスイッチに設定されていない場合、 Cisco Nexus クロススイッチリンクアグリゲーショングループは 2 つの異なるシステム ID を送信することがあります。vPC を使用してリンク集約グループを設定すると、各スイッチは同じシステム ID を送信するように指示されます。
-
メモ:システム ID の不一致を示す ifconfig -a の例を参照してください
-
-
- シングルモード:スイッチ側の設定なし、アクティブ / パッシブのみ、ポートチャネルグループなし
- マルチモード:「スタティック」ポートチャネルグループ。ストレージコントローラとスイッチは、ポートチャネルグループのメンバーであるポートの数を設定してハードコードされています。ストレージコントローラとスイッチは、ポートがオフラインにならない限り、個々のポートがポートチャネルグループに参加できないようにすることができないため、マルチモード LACP よりも最適ではありません(例:ケーブルが接続されていません)。
このタイプのポートチャネルグループが設定されているデバイスのケーブル接続が正しくない場合、「スタティック」マルチモードポートチャネルグループも誤ったケーブル接続を認識せず、すべてのポートを送信に使用します。その後、スイッチによって CAM テーブルのフラッピング(「 AC フラッピング」)が報告されるはずです。また、ネットワーク接続が確立されている場合は、非常に一貫性がありません。
注:スイッチ管理者は、スタティックポートチャネルグループを LACP と呼ぶことがありますが、「スタティック」マルチモードの ifgrp またはポートチャネルグループは LACP プロトコルを使用しないため、 2 つの用語を同じ意味で使用することはできません。
Multimode_LACP
:ポートチャネルグループモード。 2 つのネットワークデバイス(たとえば、スイッチと NetApp ストレージコントローラ)が通信し、ポートの状態とパラメータを比較できます。LACP は 2 つのポート間の通信であるため(たとえば、サーバまたはクライアントの NIC ポートと、接続先のスイッチポート)、 LACP は 2 つのデバイス間の通信が正常であることを確認できます。どちらの参加者も、ポートチャネルグループ内の各物理ポートを使用するかどうかを決定できます。これは、「スタティック」マルチモードポートチャネルグループよりも優れています。これは、未接続または完全に障害が発生したポートに関連しない状態を検出できるという点に限られます。ONTAP では、各ポートチャネルに 1 つのシステム ID しか設定できないため、複数のスイッチにまたがることはできません。
LACP ポートには 2 つの「モード」の動作があります。 - アクティブ LACP ポートは常に LACP ネゴシエーションに参加します。ネイバーデバイス(ケーブルのもう一方の端)のインターフェイスが LACP を使用するように設定されていない場合(アクティブまたはパッシブ)、このポートはディセーブルになります。
- ケーブルの反対側のデバイスが LACP 制御パケットを送信して開始した場合、パッシブ LACP ポートは LACP ネゴシエーションに参加できます。
- すべての NetApp ストレージコントローラは、常に「アクティブ LACP 」モードで動作します。これは設定できません。
LACP は、次のいずれかのタイミングで動作します。 - 「低タイマー」は、 LACP 制御パケットを 30 秒ごとに交換します。
- 「高速タイマー」は、 LACP 制御パケットを 1 秒に 1 回交換します。
- ポートが最初に「 up 」になると、ほとんどのデバイスで「 fast timers 」が使用されることが予想されます。また、 LACP が適切にネゴシエートされ、ポートが使用できるようになると、 LACP はすぐに「低タイマー」に移行することも予想されます。
LACP では、いくつかの状況でポートチャネルのメンバーをディセーブルにできます。 - ネットワークデバイスが他のデバイスからの更新の受信を停止すると、ポートは最終的に無効になります。これには最大 90 秒かかります(これよりも短い場合があります)。
- ネットワークデバイスがネイバーデバイスから更新を受信し、その更新に誤った情報が含まれている場合、ネットワークデバイスはポートを無効にできます。これは、ケーブル接続の誤りがあるシステムを検出するためのもので、 90 秒以内に発生する可能性があります。
- ネイバーポートが使用できないことを示すアップデートをネットワークデバイスが受信した場合、その LACP 制御パケットを受信した直後にポートをディセーブルにする必要があります。
- ストレージコントローラがデフォルトで「アクティブ」に設定されている場合でも、「パッシブ」に設定されているスイッチがストレージコントローラと正しくネゴシエートされないことがあります。
- 場合によっては、ストレージコントローラの移動時にスイッチが「低タイマー」に移動しないことがあります。これにより、 LACP がポートを稼働状態にできなくなる可能性があります。
注: LACP では、 2 つの隣接デバイス(たとえば、 NIC とスイッチ)が相互に直接通信していることを確認することしかできません。このポートに影響を与えないルーティング障害やスイッチ停止などのその他の障害は、 LACP によって検出されません。
ポートチャネルグループの作成者
ストレージ設計者とネットワーク管理者は協力して、ポートチャネルグループが正しく設定されていることを確認する必要があります。この一括検証を実行しないと、ネットワークインフラが危険にさらされる可能性があります。
ポートチャネルグループの理解とトラブルシューティングを行う理由
ポートチャネルグループの設定ミスの一般的な症状は、断続的な接続、パケット損失、冗長性の予期しない損失、および「 Flakey 」ネットワーク接続です。ポートチャネルグループが、堅牢なストレージインフラストラクチャ用に 100% 設定されていることを確認することを推奨します。
ポートチャネルグループの設定ミスの一般的な原因は次のとおりです。
- ネットワークスイッチが正しく設定されていません。
- ストレージコントローラの NIC からのケーブルが間違ったネットワークスイッチポートに接続されている。
- ストレージコントローラの ifgrp 設定で誤ったポートが指定されています。
- ケーブル接続またはハードウェアの問題、イーサネットケーブルまたはスイッチポート / モジュールの不良、あるいはその両方。
- 環境によっては、「低タイマー」と「アクティブ LACP 」のみを使用するようにスイッチを設定する必要がある場合があります。
LACP ポートチャネルグループのトラブルシューティング方法
ここifgrp status
では、ストレージアーキテクトの LACP ポートチャネルグループのトラブルシューティングを行う際に実行する必要がある手順について説明します。インターフェイスグループステータスの出力を確認する方法、またはを参照してください。ifgrp status
出力が正しくない場合は、何らかの修正が必要です。
ONTAP 9.2 以降のバージョンでは、
ONTAP 9.2 以降で「 ifconfig -v 」を使用して LACP の問題をトラブルシューティングする方法について、次の KB を使用してトラブルシューティングを行うことを検討してください
次のシナリオを考えてみましょう。
シナリオ 1 :ポートがダウンしています
-------- IFGRP-STATUS --------
default: transmit 'IP Load balancing', Ifgrp Type 'multi_mode', fail 'log'
corp_lag1: 1 link, transmit 'IP Load balancing', Ifgrp Type 'lacp' fail 'default'
Ifgrp Status Up Addr_set
trunked: corp_ifgrp
up:
e13a: state up, since 26Feb2013 05:18:14 (4+19:01:01)
mediatype: auto-10g_sr-fd-up
flags: enabled
active aggr, aggr port: e13a
input packets 2965338456, input bytes 11151446739454
input lacp packets 13811, output lacp packets 414063
output packets 2518851712, output bytes 22373630536977
up indications 3, broken indications 0
drops (if) 0, drops (link) 0
indication: up at 26Feb2013 05:18:14
consecutive 0, transitions 3
broken:
e7a: state broken, since 26Feb2013 15:23:49 (4+08:55:26)
mediatype: auto-10g_sr-fd-down
flags: lacp enabled
input packets 0, input bytes 0
input lacp packets 1218, output lacp packets 36343
output packets 0, output bytes 0
up indications 4, broken indications 2
drops (if) 0, drops (link) 67
indication: broken at 26Feb2013 15:23:49
consecutive 0, transitions 6
次の例では、 1 つの現用ポートと、実際にはダウンしている 1 つのポートを持つポートチャネルグループを示します。動作しactive aggr
ているポートが表示されます。これは、リンクアグリゲーションに正常に参加していることを意味します。この e7a
例では、ポートにケーブルが接続されていないことを示す「縦の切れ」インジケータが表示されます。
シナリオ 2 :ポートのケーブルが正しく接続されていません
corp_lag1: 1 link, transmit 'IP Load balancing', Ifgrp Type 'lacp' fail 'default'
Ifgrp Status Up Addr_set
trunked: corp_ifgrp
up:
e13a: state up, since 22Jan2013 15:07:01 (18+09:17:13)
mediatype: auto-10g_sr-fd-up
flags: enabled
active aggr, aggr port: e13a
input packets 18140836964, input bytes 52796851685561
input lacp packets 211121, output lacp packets 6332475
output packets 15346936943, output bytes 168979152263131
up indications 21, broken indications 9
drops (if) 0, drops (link) 0
indication: up at 22Jan2013 15:07:01
consecutive 0, transitions 30
lag_inactive:
e7a: state lag_inactive, since 22Jan2013 15:06:39 (18+09:17:35)
mediatype: auto-10g_sr-fd-up
flags: lacp enabled
input packets 582405, input bytes 1193956618
input lacp packets 211095, output lacp packets 6355756
output packets 19089029, output bytes 13102456660
up indications 15, broken indications 7
drops (if) 0, drops (link) 0
indication: lag_inactive at 22Jan2013 15:06:39
consecutive 0, transitions 22
ここでの設定は同じですがe7a
LAG_INACTIVE
、「 Broken 」ではなく表示されます。これは、ストレージコントローラとスイッチが LACP に関連するものに同意していないことを示します。ストレージコントローラが LACP がこのポートの使用をサポートしていないと判断すると、リンクは lag_inactive とマークされ、「 lag 」(リンクアグリゲーショングループ)でリンクが「 active 」でないことを示します。e7a
このようe13a
な状況の最終的な結果として、 Data ONTAP ではポートがトラフィックに使用されず、すべてのトラフィックがポートを使用するように強制されます。そのため、冗長性、耐障害性、潜在的なスループットの向上はありません。ポートe13a
も(lag_inactive
前述のトリガーのいずれifgrp
かに対して)になった場合、これは非アクティブまたはオフラインの状態に移行され、どちらの方向でもトラフィックは許可されません。
この状況では、「入力 LACP パケット」カウンタと「出力 LACP パケット」カウンタを監視することで、原因に関する手がかりを集めることができます。
「入力 LACP パケット」カウンタは、スイッチから受信した LACP 制御 / ネゴシエーションパケットの数を監視します。この値が増加していない場合は、スイッチが LACP パケットを送信していないか、ハードウェアが受信したすべてのパケットを廃棄している可能性があります。スイッチが「スタティック」マルチモードに設定ifgrp
されている場合、このカウンタは増分されません。
「 Output LACP Packets 」カウンタは、ストレージコントローラによって送信された LACP 制御 / ネゴシエーションパケットの数を監視します。ポートが「 broken 」以外の状態にある場合、この値は常に増加している必要があります。
シナリオ 3 : LACP ifgrp が正しく設定されていること
両方のポートがありactive aggr
ます( aggr port の部分は無視してください)。には何も触れてはいけませlag_inactive
ん。
設定は次のようになります。
corp_lag2: 2 links, transmit 'IP Load balancing', Ifgrp Type 'lacp' fail 'default'
Ifgrp Status Up Addr_set
trunked: corp_ifgrp
up:
e7b: state up, since 26Feb2013 04:58:05 (4+19:12:27)
mediatype: auto-10g_sr-fd-up
flags: enabled
active aggr, aggr port: e13b
input packets 9493, input bytes 1177132
input lacp packets 13831, output lacp packets 415997
output packets 617618727, output bytes 2908794789546
up indications 3, broken indications 0
drops (if) 0, drops (link) 0
indication: up at 26Feb2013 04:58:05
consecutive 0, transitions 3
e13b: state up, since 26Feb2013 04:58:04 (4+19:12:28)
mediatype: auto-10g_sr-fd-up
flags: enabled
active aggr, aggr port: e13b
input packets 9494, input bytes 1177256
input lacp packets 13830, output lacp packets 414747
output packets 505651519, output bytes 4117402075645
up indications 3, broken indications 0
drops (if) 0, drops (link) 0
indication: up at 26Feb2013 04:58:04
consecutive 0, transitions 3
この状態では、両方のポートが「 enabled 」と表示され、「 input lacp packets 」と「 output lacp packets 」の両方のカウンタが 30 秒ごとに 1 つ以上増加している必要があります。
[1]Cisco Nexus スイッチの構文など、 LACP ポートチャネルグループの設定に関するベストプラクティスについては、テクニカルレポート TR-3802 を参照してください。レイヤ 1 が期待どおりであるかどうかを検証するために、 NetApp ストレージコントローラが接続されているポートを確実に理解しておく必要があります。Data ONTAP の Cisco Discovery Protocol ( CDP )機能を使用すると、この検証に役立ちます。
node1 > options cdpd.enabled on
wait up to 60 minutes to sup to sup to lLLDP polling interval to sup.
node1 > cdpd show-neighbors
(clustered Data ONTAP)
Cluster01::> node run -node Node1 options cdpd.enable on
Cluster01::> node run -node Node1 cdpd show-neighbors
注vpc peer-gateway’
:現在の世代のシスコの実装では、 NetApp FastPath 設定との互換性を最大限に保つために、ポートチャネル設定に「」設定を追加することを検討してください(デフォルトは 7-Mode および CDOT で)。この vPC ピアゲートウェイステートメントは、 7000 シリーズスイッチの場合は NX-OS 4.2.1 で、 5500 シリーズスイッチの場合は NX-OS Release 5.0(3) N1(1) で使用できます。詳細については、「 IP.FastPath が有効な Cisco Nexus vPC 経由でネットワークトラフィックを送信できない KB 」を参照してください。
Additional Information
ifconfig -a の 'bad ' および 'good ' systemID 情報の例:
「 laggport 」の下の各セグメントでは、「 lag id 」は 3C-13-cc-f6F-D8-08 と比較して、同じである必要があります。 たとえば、 e0f (ダウンポート)では、 80-2D-BF-3A-A4-7F と表示されます。これは、「 lag id 」 -3C-13-CC-6F-D8-08 に記載されているものと同じです。 「 laggport : e0e 」は、正しいシステム ID -3C-13-CC-6F-D8-08 を示している
a0a: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 9000
options=6407bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWTSO,RXCSUM_IPV6,TXCSUM_IPV6>
ether d2:39:ea:21:e8:f4
laggproto lacp lagghash l3
lagg options:
flags=1<USE_FLOWID>
flowid_shift: 16
lagg statistics:
active ports: 3
flapping: 0
lag id: [(8000,D2-39-EA-21-E8-F4,0032,0000,0000),
~~> (8000,3C-13-CC-6F-D8-08,0001,0000,0000)]
laggport: e0f flags=18<COLLECTING,DISTRIBUTING> state=3d<ACTIVITY,AGGREGATION,SYNC,COLLECTING,DISTRIBUTING>
[(8000,D2-39-EA-21-E8-F4,0032,8000,0003),
~~> (8000,80-2D-BF-3A-A4-7F,0001,8000,0108)]
input/output LACPDUs: 13743 / 80819
laggport: e0e flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> state=3d<ACTIVITY,AGGREGATION,SYNC,COLLECTING,DISTRIBUTING>
[(8000,D2-39-EA-21-E8-F4,0032,8000,0004),
~~> (8000,3C-13-CC-6F-D8-08,0001,8000,0108)]
input/output LACPDUs: 13743 / 80789
お客様が vPC 設定を修正した後、これらのシステム ID は一致しました