LACPポートチャネル/インターフェイスグループのトラブルシューティング
環境
ネットワークスイッチ
回答
システムに影響がある場合は、 Active IQ を確認してください
ポートチャネルグループとは何ですか。
ポートチャネルグループは、アグリゲートスループットの向上やネットワークの耐障害性向上を目的として、複数の物理イーサネットポートをまとめたものです。EtherChannel、トランク、ポートバンドル、またはLACPとも呼ばれます。IEEEが定義interface groups / ifgrp
したポートチャネルグループの標準は802.3adと802.3axで、ポートチャネルグループは一般にスイッチ側の設定を指しますが、ネットアップは''または従来のVirtual Interface(VIF;仮想インターフェイス)という用語を使用します。ネットアップ側のインターフェイスグループには3つの種類があります。
-
SystemID:遅延の各メンバーは、LACPDU内のsystemIDを送信します。Filerのすべてのメンバー・ポートは、1つの論理デバイスだけがスイッチに接続されていることを示すために、同じシステムIDを送信する必要があります。同様に、各スイッチのメンバーポートは同じシステムIDを送信する必要があります。ただし、systemIDはスイッチとFilerで異なることが予想されます。
-
メンバーポートが同じシステムIDを送信しない場合、一方の側はLACPでサポートされていない2つの異なる論理デバイスを集約しようとしています。たとえば、スイッチで仮想ポートチャネル(VPC)が設定されていない場合、Cisco Nexusクロススイッチリンクアグリゲーショングループは2つの異なるシステムIDを送信できます。VPCを使用してリンクアグリゲーショングループを設定すると、各スイッチが同じSystemIDを送信するように指示されます。
-
メモ:システムIDの不一致を示すifconfig -aの例を参照してください
-
-
- Single Mode:スイッチ側の設定はなく、アクティブ/パッシブのみで、ポートチャネルグループはサポートされません
- multimode:「Static」ポートチャネルグループ。ストレージコントローラとスイッチは、常にポートチャネルグループのメンバーとなる一連のポートでハードコードされています。ストレージコントローラとスイッチは、ポートがオフラインになっていない(たとえば、ケーブルが接続されていない)かぎり、ポートチャネルグループに個別のポートを参加させることを禁止できないため、Multimode_LACPよりも最適ではありません。
このタイプのポートチャネルグループで設定されたデバイスが正しくケーブル接続されていない場合、「スタティック」マルチモードポートチャネルグループもケーブル接続の誤りを認識しないため、すべてのポートを送信に使用します。次に、スイッチによって報告されたCAMテーブルフラッピング(「ACフラッピング」)が表示されます。また、ネットワーク接続が確立されている場合は、非常に一貫性のない状態になります。
注:スイッチ管理者が静的ポートチャネルグループをLACPと呼ぶこともありますが、「スタティック」マルチモードifgrpまたはポートチャネルグループではLACPプロトコルを使用しないため、この2つの用語を同じ意味で使用することはできません。
Multimode_LACP
:ポートチャネルグループモード。2つのネットワークデバイス(スイッチやネットアップストレージコントローラなど)が通信してポートの状態とパラメータを比較できるようにします。LACPは2つのポート間の通信(サーバまたはクライアント上のNICポートと、接続先のスイッチポートなど)であるため、LACPは2つのデバイス間の通信が正常に行われていることを確認できます。ポートチャネルグループの各物理ポートを使用するかどうかを決定できます。これは、「スタティック」マルチモードポートチャネルグループよりも優れているため、未接続のポートや完全に障害が発生したポートに関連しない一部の状態を検出できます。ONTAP では、各ポートチャネルに割り当てることができるシステムIDは1つだけで、複数のスイッチにまたがることはできません。
LACPポートでの処理には「コード」が2つあります。 - アクティブLACPポートは常にLACPネゴシエーションに参加します。隣接デバイス(ケーブルのもう一方の端)のインターフェイスがLACP用に設定されていない場合、このポートはディセーブルになります。
- ケーブルの反対側のデバイスがLACP制御パケットを送信して開始した場合、パッシブLACPポートはLACPネゴシエーションに参加できます。
- ネットアップのストレージコントローラはすべて常に「アクティブLACP」モードで動作します。これは設定できません。
LACPは、次の2つの「タイミング」のいずれかで、いつでも動作します。 - 「Low timers」は、30秒ごとにLACP制御パケットを交換します。
- 「高速タイマー」は、1秒に1回LACP制御パケットを交換します。
- ほとんどのデバイスは、ポートが最初に「アップ」されるときに「高速タイマー」を使用することが想定されています。また、LACPが適切にネゴシエートされ、ポートが使用可能になったあとは、LACPのタイマーが「Lowに」移動することも想定されています。
LACPは、いくつかの状況でポートチャネルのメンバーをディセーブルにできます。 - ネットワークデバイスが他のデバイスからのアップデートの受信を停止すると、ポートは最終的に無効になります。これには最大90秒かかります(少なくてもかまいません)。
- ネットワークデバイスが隣接デバイスから更新を受信したが、更新に誤った情報が含まれている場合、ネットワークデバイスはポートを無効にできます。これは、誤配線システムを検出するための想定値であり、90秒以内に発生することがあります。
- ネイバーポートが使用できないことを示す更新がネットワークデバイスで受信された場合、そのLACP制御パケットを受信した直後にポートを無効にする必要があります。
- 場合によっては、ストレージコントローラがデフォルトで「Active」に設定されていても、スイッチがストレージコントローラと正しくネゴシエートしないことがあります。
- 場合によっては、ストレージコントローラの移動時にスイッチが「タイマーが下限」に移行しないことがあります。これにより、LACPでポートが使用可能な状態になりません。
注:LACPで確認できるのは、2つの隣接デバイス(NICとスイッチなど)が相互に直接通信していることだけです。ルーティングエラーや、このポートに影響しないスイッチの停止など、他の障害はLACPで検出されません。
ポートチャネルグループの作成者
ストレージアーキテクトとネットワーク管理者は、協力して、ポートチャネルグループが正しく設定されていることを確認する必要があります。この集団的な検証を行わないと、ネットワークインフラにリスクが生じる可能性があります。
ポートチャネルグループを理解してトラブルシューティングを行う理由
ポートチャネルグループが正しく設定されていない場合の一般的な症状としては、断続的な接続、パケット損失、予期しない冗長性の喪失、および「フラットキー」ネットワーク接続などがあります。堅牢なストレージインフラストラクチャ用にポートチャネルグループを100%設定することを推奨します。
次に、ポートチャネルグループの設定ミスの一般的な原因を示します。
- ネットワークスイッチが正しく設定されていません。
- ストレージコントローラのNICからのケーブルが、間違ったネットワークスイッチポートに接続されています。
- ストレージコントローラのifgrp構成に間違ったポートが指定されています。
- ケーブル接続またはハードウェア問題 、イーサネットケーブルまたはスイッチポート/モジュールの不良。
- 一部の環境では、「タイマーが低い」と「アクティブLACP」だけを使用するようにスイッチを設定しなければならない場合があります。
LACPポートチャネルグループのトラブルシューティング方法
このセクションでは、ストレージアーキテクトのLACPポートチャネルグループのトラブルシューティングで使用ifgrp status
する手順 について説明します。インターフェイスグループステータス出力の確認または。ifgrp status
出力が正しくない場合は、修正が必要です。
ONTAP 9.2以降のバージョンでは、トラブルシューティングのサポートを受けるために次のKBを利用することを検討してください
。ONTAP 9.2以降の「ifconfig -v」に関するLACPの問題のトラブルシューティング方法
次のシナリオを考えてみましょう。
シナリオ1 -ポート停止
-------- IFGRP-STATUS --------
default: transmit 'IP Load balancing', Ifgrp Type 'multi_mode', fail 'log'
corp_lag1: 1 link, transmit 'IP Load balancing', Ifgrp Type 'lacp' fail 'default'
Ifgrp Status Up Addr_set
trunked: corp_ifgrp
up:
e13a: state up, since 26Feb2013 05:18:14 (4+19:01:01)
mediatype: auto-10g_sr-fd-up
flags: enabled
active aggr, aggr port: e13a
input packets 2965338456, input bytes 11151446739454
input lacp packets 13811, output lacp packets 414063
output packets 2518851712, output bytes 22373630536977
up indications 3, broken indications 0
drops (if) 0, drops (link) 0
indication: up at 26Feb2013 05:18:14
consecutive 0, transitions 3
broken:
e7a: state broken, since 26Feb2013 15:23:49 (4+08:55:26)
mediatype: auto-10g_sr-fd-down
flags: lacp enabled
input packets 0, input bytes 0
input lacp packets 1218, output lacp packets 36343
output packets 0, output bytes 0
up indications 4, broken indications 2
drops (if) 0, drops (link) 67
indication: broken at 26Feb2013 15:23:49
consecutive 0, transitions 6
次の例では、動作しているポートが1つ、実際にダウンしているポートが1つあるポートチャネルグループを示します。機能active aggr
しているポートが表示されます。これは、リンクアグリゲーションに正常に参加していることを意味します。この e7a
例では、ポートに「破損」と表示されている場合は、ポートにケーブルが接続されていないことを示しています。
シナリオ2 -ポートのケーブル接続が間違っています
corp_lag1: 1 link, transmit 'IP Load balancing', Ifgrp Type 'lacp' fail 'default'
Ifgrp Status Up Addr_set
trunked: corp_ifgrp
up:
e13a: state up, since 22Jan2013 15:07:01 (18+09:17:13)
mediatype: auto-10g_sr-fd-up
flags: enabled
active aggr, aggr port: e13a
input packets 18140836964, input bytes 52796851685561
input lacp packets 211121, output lacp packets 6332475
output packets 15346936943, output bytes 168979152263131
up indications 21, broken indications 9
drops (if) 0, drops (link) 0
indication: up at 22Jan2013 15:07:01
consecutive 0, transitions 30
lag_inactive:
e7a: state lag_inactive, since 22Jan2013 15:06:39 (18+09:17:35)
mediatype: auto-10g_sr-fd-up
flags: lacp enabled
input packets 582405, input bytes 1193956618
input lacp packets 211095, output lacp packets 6355756
output packets 19089029, output bytes 13102456660
up indications 15, broken indications 7
drops (if) 0, drops (link) 0
indication: lag_inactive at 22Jan2013 15:06:39
consecutive 0, transitions 22
設定はここでも同じですがe7a
LAG_INACTIVE
、「broken」ではなくと表示されます。ストレージコントローラとスイッチでLACPに関連する情報が一致していないことを示します。ストレージコントローラがこのポートの使用をLACPでサポートしていないと判断すると、リンクにlag_inactiveと表示されます。これは、リンクアグリゲーショングループ(Link Aggregation Group)のリンクが「active」ではないことを示します。このようe7a
e13a
な状況が発生するのは、ポートがData ONTAP によってトラフィックに使用されず、すべてのトラフィックがポートを使用するように強制されるためです。そのため、冗長性、耐障害性、および潜在的なスループット向上は存在しません。ポートe13a
も(lag_inactive
前述のトリガーのいずれかの場合ifgrp
)になると、非アクティブまたはオフライン状態に移行し、いずれの方向でもトラフィックを許可しなくなります。
この状況では、「入力LACPパケット」カウンタと「出力LACPパケット」カウンタを監視することで、原因 に関するヒントを収集できます。
「入力LACPパケット」カウンタは、スイッチから受信したLACP制御/ネゴシエーションパケットの数を監視します。この値が増分していない場合は、スイッチがLACPパケットを送信していない可能性があるか、またはハードウェアが受信したすべてのパケットを廃棄している可能性があることを意味します。スイッチifgrp
が「スタティック」マルチモードに設定されている場合、このカウンタは増加していません。
「出力LACPパケット」カウンタは、ストレージコントローラから送信されたLACP制御/ネゴシエーションパケットの数を監視します。ポートが「broken」以外の状態の場合は、常に増分する必要があります。
シナリオ3 -適切に設定されたLACP ifgrp
ポートにactive aggr
は両方ともがあります(aggr portの部分は無視してください)。について言及してはなりませんlag_inactive
。
次のような構成になります。
corp_lag2: 2 links, transmit 'IP Load balancing', Ifgrp Type 'lacp' fail 'default'
Ifgrp Status Up Addr_set
trunked: corp_ifgrp
up:
e7b: state up, since 26Feb2013 04:58:05 (4+19:12:27)
mediatype: auto-10g_sr-fd-up
flags: enabled
active aggr, aggr port: e13b
input packets 9493, input bytes 1177132
input lacp packets 13831, output lacp packets 415997
output packets 617618727, output bytes 2908794789546
up indications 3, broken indications 0
drops (if) 0, drops (link) 0
indication: up at 26Feb2013 04:58:05
consecutive 0, transitions 3
e13b: state up, since 26Feb2013 04:58:04 (4+19:12:28)
mediatype: auto-10g_sr-fd-up
flags: enabled
active aggr, aggr port: e13b
input packets 9494, input bytes 1177256
input lacp packets 13830, output lacp packets 414747
output packets 505651519, output bytes 4117402075645
up indications 3, broken indications 0
drops (if) 0, drops (link) 0
indication: up at 26Feb2013 04:58:04
consecutive 0, transitions 3
この状態では、両方のポートが「enabled」と表示され、「input lacp packets」カウンタと「output lacp packets」カウンタの両方が、30秒ごとに少なくとも1つずつ増加している必要があります。
LACPポートチャネルグループの設定に関するベストプラクティスについては、テクニカルレポートTR-3802(『Cisco Nexusスイッチでの構文』など)を参照してください。レイヤ1が期待どおりかどうかを検証するために、ネットアップストレージコントローラが接続されているポートを理解していることを確認してください。Data ONTAP のCDP機能を使用すると、この検証を支援できます。
node1>オプションCDPD.enabled
ON LLDPポーリング間隔が正常に完了するまで最大60分間待機します。
node1> cdpd show-neighbors
clustered Data ONTAP の場合:
Cluster01::> node run -node Node1 options cdpd.enable on
Cluster01::> node run -node Node1 cdpd show-neighbors
注:現在のシスコ世代の実装でvpc peer-gateway’
は、NetApp FastPath設定との互換性を最大限に高めるために、ポートチャネル設定に「設定」を追加することを検討してください(7-Modeおよびclustered Data ONTAPではデフォルト)。このVPC peer-gatewayステートメントは、NX-OS 4.2.1で7000シリーズスイッチ用、および5500シリーズスイッチ用のNX-OS Release 5.0(3)N1(1)で使用できます。詳細については 、「ip.fastpath が 有効 なKB でCisco Nexus vPC経由 で ネットワークトラフィックを送信できない 」を参照してください。
追加情報
ifconfig -vの「bad」および「good」システムID情報の例:(ONTAP 9.2以降)
3C-13-CC-6F-D8-08に対する「遅延ID」に注意してください。これは、「lagport」の下の各セグメントで同じでなければなりません。 たとえば、e0f(ダウンポート)では、80-2D-BF-3A-A4-7Fと表示されます。これは、「lag id」に記載されているものと同じである必要があります。-3C-13-CC-6F-D8-08 「laggport:e0e」は、正しいシステムID -3C-13-CC-6F-D8-08を示している
a0a: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 9000
options=6407bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWTSO,RXCSUM_IPV6,TXCSUM_IPV6>
ether d2:39:ea:21:e8:f4
laggproto lacp lagghash l3
lagg options:
flags=1<USE_FLOWID>
flowid_shift: 16
lagg statistics:
active ports: 3
flapping: 0
lag id: [(8000,D2-39-EA-21-E8-F4,0032,0000,0000),
~~> (8000,3C-13-CC-6F-D8-08,0001,0000,0000)]
laggport: e0f flags=18<COLLECTING,DISTRIBUTING> state=3d<ACTIVITY,AGGREGATION,SYNC,COLLECTING,DISTRIBUTING>
[(8000,D2-39-EA-21-E8-F4,0032,8000,0003),
~~> (8000,80-2D-BF-3A-A4-7F,0001,8000,0108)]
input/output LACPDUs: 13743 / 80819
laggport: e0e flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> state=3d<ACTIVITY,AGGREGATION,SYNC,COLLECTING,DISTRIBUTING>
[(8000,D2-39-EA-21-E8-F4,0032,8000,0004),
~~> (8000,3C-13-CC-6F-D8-08,0001,8000,0108)]
input/output LACPDUs: 13743 / 80789
お客様がvPC設定を修正した後、これらのシステムIDは一致しました
注:以下のコマンドを使用してLACPのステータスを取得することもできます(ONTAP 9.2以降)。
::> node run -node <node> -command ifconfig -v