LACPポートチャネル/インターフェイスグループのトラブルシューティング

最後の更新
PDFとして保存

Views:: 7,244

Visibility:: Public

Votes:: 11

Category:: not set

Specialty:: nas

Last Updated:

環境

ネットワークスイッチ

回答

システムに影響がある場合は、 Active IQ を確認してください

ポートチャネルグループとは何ですか。

ポートチャネルグループは、アグリゲートスループットの向上やネットワークの耐障害性向上を目的として、複数の物理イーサネットポートをまとめたものです。EtherChannel、トランク、ポートバンドル、またはLACPとも呼ばれます。IEEEが定義interface groups / ifgrpしたポートチャネルグループの標準は802.3adと802.3axで、ポートチャネルグループは一般にスイッチ側の設定を指しますが、ネットアップは''または従来のVirtual Interface（VIF；仮想インターフェイス）という用語を使用します。ネットアップ側のインターフェイスグループには3つの種類があります。

SystemID：遅延の各メンバーは、LACPDU内のsystemIDを送信します。Filerのすべてのメンバー・ポートは、1つの論理デバイスだけがスイッチに接続されていることを示すために、同じシステムIDを送信する必要があります。同様に、各スイッチのメンバーポートは同じシステムIDを送信する必要があります。ただし、systemIDはスイッチとFilerで異なることが予想されます。
- メンバーポートが同じシステムIDを送信しない場合、一方の側はLACPでサポートされていない2つの異なる論理デバイスを集約しようとしています。たとえば、スイッチで仮想ポートチャネル（VPC）が設定されていない場合、Cisco Nexusクロススイッチリンクアグリゲーショングループは2つの異なるシステムIDを送信できます。VPCを使用してリンクアグリゲーショングループを設定すると、各スイッチが同じSystemIDを送信するように指示されます。
  - メモ：システムIDの不一致を示すifconfig -aの例を参照してください
Single Mode：スイッチ側の設定はなく、アクティブ/パッシブのみで、ポートチャネルグループはサポートされません
multimode：「Static」ポートチャネルグループ。ストレージコントローラとスイッチは、常にポートチャネルグループのメンバーとなる一連のポートでハードコードされています。ストレージコントローラとスイッチは、ポートがオフラインになっていない（たとえば、ケーブルが接続されていない）かぎり、ポートチャネルグループに個別のポートを参加させることを禁止できないため、Multimode_LACPよりも最適ではありません。

このタイプのポートチャネルグループで設定されたデバイスが正しくケーブル接続されていない場合、「スタティック」マルチモードポートチャネルグループもケーブル接続の誤りを認識しないため、すべてのポートを送信に使用します。次に、スイッチによって報告されたCAMテーブルフラッピング（「ACフラッピング」）が表示されます。また、ネットワーク接続が確立されている場合は、非常に一貫性のない状態になります。

注：スイッチ管理者が静的ポートチャネルグループをLACPと呼ぶこともありますが、「スタティック」マルチモードifgrpまたはポートチャネルグループではLACPプロトコルを使用しないため、この2つの用語を同じ意味で使用することはできません。

Multimode_LACP：ポートチャネルグループモード。2つのネットワークデバイス（スイッチやネットアップストレージコントローラなど）が通信してポートの状態とパラメータを比較できるようにします。LACPは2つのポート間の通信（サーバまたはクライアント上のNICポートと、接続先のスイッチポートなど）であるため、LACPは2つのデバイス間の通信が正常に行われていることを確認できます。ポートチャネルグループの各物理ポートを使用するかどうかを決定できます。これは、「スタティック」マルチモードポートチャネルグループよりも優れているため、未接続のポートや完全に障害が発生したポートに関連しない一部の状態を検出できます。ONTAP では、各ポートチャネルに割り当てることができるシステムIDは1つだけで、複数のスイッチにまたがることはできません。

LACPポートでの処理には「コード」が2つあります。
アクティブLACPポートは常にLACPネゴシエーションに参加します。隣接デバイス（ケーブルのもう一方の端）のインターフェイスがLACP用に設定されていない場合、このポートはディセーブルになります。
ケーブルの反対側のデバイスがLACP制御パケットを送信して開始した場合、パッシブLACPポートはLACPネゴシエーションに参加できます。
ネットアップのストレージコントローラはすべて常に「アクティブLACP」モードで動作します。これは設定できません。
LACPは、次の2つの「タイミング」のいずれかで、いつでも動作します。
「Low timers」は、30秒ごとにLACP制御パケットを交換します。
「高速タイマー」は、1秒に1回LACP制御パケットを交換します。
ほとんどのデバイスは、ポートが最初に「アップ」されるときに「高速タイマー」を使用することが想定されています。また、LACPが適切にネゴシエートされ、ポートが使用可能になったあとは、LACPのタイマーが「Lowに」移動することも想定されています。
LACPは、いくつかの状況でポートチャネルのメンバーをディセーブルにできます。
ネットワークデバイスが他のデバイスからのアップデートの受信を停止すると、ポートは最終的に無効になります。これには最大90秒かかります（少なくてもかまいません）。
ネットワークデバイスが隣接デバイスから更新を受信したが、更新に誤った情報が含まれている場合、ネットワークデバイスはポートを無効にできます。これは、誤配線システムを検出するための想定値であり、90秒以内に発生することがあります。
ネイバーポートが使用できないことを示す更新がネットワークデバイスで受信された場合、そのLACP制御パケットを受信した直後にポートを無効にする必要があります。
場合によっては、ストレージコントローラがデフォルトで「Active」に設定されていても、スイッチがストレージコントローラと正しくネゴシエートしないことがあります。
場合によっては、ストレージコントローラの移動時にスイッチが「タイマーが下限」に移行しないことがあります。これにより、LACPでポートが使用可能な状態になりません。

注：LACPで確認できるのは、2つの隣接デバイス（NICとスイッチなど）が相互に直接通信していることだけです。ルーティングエラーや、このポートに影響しないスイッチの停止など、他の障害はLACPで検出されません。

ポートチャネルグループの作成者

ストレージアーキテクトとネットワーク管理者は、協力して、ポートチャネルグループが正しく設定されていることを確認する必要があります。この集団的な検証を行わないと、ネットワークインフラにリスクが生じる可能性があります。

ポートチャネルグループを理解してトラブルシューティングを行う理由

ポートチャネルグループが正しく設定されていない場合の一般的な症状としては、断続的な接続、パケット損失、予期しない冗長性の喪失、および「フラットキー」ネットワーク接続などがあります。堅牢なストレージインフラストラクチャ用にポートチャネルグループを100%設定することを推奨します。

次に、ポートチャネルグループの設定ミスの一般的な原因を示します。

ネットワークスイッチが正しく設定されていません。
ストレージコントローラのNICからのケーブルが、間違ったネットワークスイッチポートに接続されています。
ストレージコントローラのifgrp構成に間違ったポートが指定されています。
ケーブル接続またはハードウェア問題、イーサネットケーブルまたはスイッチポート/モジュールの不良。
一部の環境では、「タイマーが低い」と「アクティブLACP」だけを使用するようにスイッチを設定しなければならない場合があります。

LACPポートチャネルグループのトラブルシューティング方法

このセクションでは、ストレージアーキテクトのLACPポートチャネルグループのトラブルシューティングで使用ifgrp statusする手順について説明します。インターフェイスグループステータス出力の確認または。ifgrp status出力が正しくない場合は、修正が必要です。

ONTAP 9.2以降のバージョンでは、トラブルシューティングのサポートを受けるために次のKBを利用することを検討してください
。ONTAP 9.2以降の「ifconfig -v」に関するLACPの問題のトラブルシューティング方法

次のシナリオを考えてみましょう。

シナリオ1 -ポート停止

-------- IFGRP-STATUS -------- default: transmit 'IP Load balancing', Ifgrp Type 'multi_mode', fail 'log' corp_lag1: 1 link, transmit 'IP Load balancing', Ifgrp Type 'lacp' fail 'default' Ifgrp Status Up Addr_set trunked: corp_ifgrp up: e13a: state up, since 26Feb2013 05:18:14 (4+19:01:01) mediatype: auto-10g_sr-fd-up flags: enabled active aggr, aggr port: e13a input packets 2965338456, input bytes 11151446739454 input lacp packets 13811, output lacp packets 414063 output packets 2518851712, output bytes 22373630536977 up indications 3, broken indications 0 drops (if) 0, drops (link) 0 indication: up at 26Feb2013 05:18:14 consecutive 0, transitions 3 broken: e7a: state broken, since 26Feb2013 15:23:49 (4+08:55:26) mediatype: auto-10g_sr-fd-down flags: lacp enabled input packets 0, input bytes 0 input lacp packets 1218, output lacp packets 36343 output packets 0, output bytes 0 up indications 4, broken indications 2 drops (if) 0, drops (link) 67 indication: broken at 26Feb2013 15:23:49 consecutive 0, transitions 6

次の例では、動作しているポートが1つ、実際にダウンしているポートが1つあるポートチャネルグループを示します。機能active aggrしているポートが表示されます。これは、リンクアグリゲーションに正常に参加していることを意味します。この e7a例では、ポートに「破損」と表示されている場合は、ポートにケーブルが接続されていないことを示しています。

シナリオ2 -ポートのケーブル接続が間違っています

corp_lag1: 1 link, transmit 'IP Load balancing', Ifgrp Type 'lacp' fail 'default' Ifgrp Status Up Addr_set trunked: corp_ifgrp up: e13a: state up, since 22Jan2013 15:07:01 (18+09:17:13) mediatype: auto-10g_sr-fd-up flags: enabled active aggr, aggr port: e13a input packets 18140836964, input bytes 52796851685561 input lacp packets 211121, output lacp packets 6332475 output packets 15346936943, output bytes 168979152263131 up indications 21, broken indications 9 drops (if) 0, drops (link) 0 indication: up at 22Jan2013 15:07:01 consecutive 0, transitions 30 lag_inactive: e7a: state lag_inactive, since 22Jan2013 15:06:39 (18+09:17:35) mediatype: auto-10g_sr-fd-up flags: lacp enabled input packets 582405, input bytes 1193956618 input lacp packets 211095, output lacp packets 6355756 output packets 19089029, output bytes 13102456660 up indications 15, broken indications 7 drops (if) 0, drops (link) 0 indication: lag_inactive at 22Jan2013 15:06:39 consecutive 0, transitions 22

設定はここでも同じですがe7aLAG_INACTIVE、「broken」ではなくと表示されます。ストレージコントローラとスイッチでLACPに関連する情報が一致していないことを示します。ストレージコントローラがこのポートの使用をLACPでサポートしていないと判断すると、リンクにlag_inactiveと表示されます。これは、リンクアグリゲーショングループ（Link Aggregation Group）のリンクが「active」ではないことを示します。このようe7a e13aな状況が発生するのは、ポートがData ONTAP によってトラフィックに使用されず、すべてのトラフィックがポートを使用するように強制されるためです。そのため、冗長性、耐障害性、および潜在的なスループット向上は存在しません。ポートe13aも（lag_inactive前述のトリガーのいずれかの場合ifgrp ）になると、非アクティブまたはオフライン状態に移行し、いずれの方向でもトラフィックを許可しなくなります。

この状況では、「入力LACPパケット」カウンタと「出力LACPパケット」カウンタを監視することで、原因に関するヒントを収集できます。

「入力LACPパケット」カウンタは、スイッチから受信したLACP制御/ネゴシエーションパケットの数を監視します。この値が増分していない場合は、スイッチがLACPパケットを送信していない可能性があるか、またはハードウェアが受信したすべてのパケットを廃棄している可能性があることを意味します。スイッチifgrpが「スタティック」マルチモードに設定されている場合、このカウンタは増加していません。

「出力LACPパケット」カウンタは、ストレージコントローラから送信されたLACP制御/ネゴシエーションパケットの数を監視します。ポートが「broken」以外の状態の場合は、常に増分する必要があります。

シナリオ3 -適切に設定されたLACP ifgrp

ポートにactive aggrは両方ともがあります（aggr portの部分は無視してください）。について言及してはなりませんlag_inactive。

次のような構成になります。

corp_lag2: 2 links, transmit 'IP Load balancing', Ifgrp Type 'lacp' fail 'default' Ifgrp Status Up Addr_set trunked: corp_ifgrp up: e7b: state up, since 26Feb2013 04:58:05 (4+19:12:27) mediatype: auto-10g_sr-fd-up flags: enabled active aggr, aggr port: e13b input packets 9493, input bytes 1177132 input lacp packets 13831, output lacp packets 415997 output packets 617618727, output bytes 2908794789546 up indications 3, broken indications 0 drops (if) 0, drops (link) 0 indication: up at 26Feb2013 04:58:05 consecutive 0, transitions 3 e13b: state up, since 26Feb2013 04:58:04 (4+19:12:28) mediatype: auto-10g_sr-fd-up flags: enabled active aggr, aggr port: e13b input packets 9494, input bytes 1177256 input lacp packets 13830, output lacp packets 414747 output packets 505651519, output bytes 4117402075645 up indications 3, broken indications 0 drops (if) 0, drops (link) 0 indication: up at 26Feb2013 04:58:04 consecutive 0, transitions 3

この状態では、両方のポートが「enabled」と表示され、「input lacp packets」カウンタと「output lacp packets」カウンタの両方が、30秒ごとに少なくとも1つずつ増加している必要があります。

LACPポートチャネルグループの設定に関するベストプラクティスについては、テクニカルレポートTR-3802（『Cisco Nexusスイッチでの構文』など）を参照してください。レイヤ1が期待どおりかどうかを検証するために、ネットアップストレージコントローラが接続されているポートを理解していることを確認してください。Data ONTAP のCDP機能を使用すると、この検証を支援できます。

node1>オプションCDPD.enabled
ON LLDPポーリング間隔が正常に完了するまで最大60分間待機します。
node1> cdpd show-neighbors

clustered Data ONTAP の場合：

Cluster01::> node run -node Node1 options cdpd.enable on Cluster01::> node run -node Node1 cdpd show-neighbors

注：現在のシスコ世代の実装でvpc peer-gateway’は、NetApp FastPath設定との互換性を最大限に高めるために、ポートチャネル設定に「設定」を追加することを検討してください（7-Modeおよびclustered Data ONTAPではデフォルト）。このVPC peer-gatewayステートメントは、NX-OS 4.2.1で7000シリーズスイッチ用、および5500シリーズスイッチ用のNX-OS Release 5.0(3)N1(1)で使用できます。詳細については 、「ip.fastpath が有効なKB でCisco Nexus vPC経由 で ネットワークトラフィックを送信できない 」を参照してください。

追加情報

ifconfig -vの「bad」および「good」システムID情報の例：（ONTAP 9.2以降）

3C-13-CC-6F-D8-08に対する「遅延ID」に注意してください。これは、「lagport」の下の各セグメントで同じでなければなりません。たとえば、e0f（ダウンポート）では、80-2D-BF-3A-A4-7Fと表示されます。これは、「lag id」に記載されているものと同じである必要があります。-3C-13-CC-6F-D8-08 「laggport：e0e」は、正しいシステムID -3C-13-CC-6F-D8-08を示している

a0a: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 9000 options=6407bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,TSO4,TSO6,LRO,VLAN_HWTSO,RXCSUM_IPV6,TXCSUM_IPV6> ether d2:39:ea:21:e8:f4 laggproto lacp lagghash l3 lagg options: flags=1<USE_FLOWID> flowid_shift: 16 lagg statistics: active ports: 3 flapping: 0 lag id: [(8000,D2-39-EA-21-E8-F4,0032,0000,0000), ~~> (8000,3C-13-CC-6F-D8-08,0001,0000,0000)]

laggport: e0f flags=18<COLLECTING,DISTRIBUTING> state=3d<ACTIVITY,AGGREGATION,SYNC,COLLECTING,DISTRIBUTING> [(8000,D2-39-EA-21-E8-F4,0032,8000,0003), ~~> (8000,80-2D-BF-3A-A4-7F,0001,8000,0108)] input/output LACPDUs: 13743 / 80819

laggport: e0e flags=1c<ACTIVE,COLLECTING,DISTRIBUTING> state=3d<ACTIVITY,AGGREGATION,SYNC,COLLECTING,DISTRIBUTING> [(8000,D2-39-EA-21-E8-F4,0032,8000,0004), ~~> (8000,3C-13-CC-6F-D8-08,0001,8000,0108)] input/output LACPDUs: 13743 / 80789

お客様がvPC設定を修正した後、これらのシステムIDは一致しました

注：以下のコマンドを使用してLACPのステータスを取得することもできます（ONTAP 9.2以降）。

::> node run -node <node> -command ifconfig -v