SG1000でアプライアンスのLACPポートが見つからないとStorageGRIDから断続的に報告される
環境
- NetApp StorageGRID
- SG1000アプライアンス
- LACP
問題
- StorageGRID UIから、bondXでアプライアンスのLACPポートが見つからない(アラート1つ)と断続的に報告され ます。このポートはSG1000アプライアンスであとから自己解決されます。
/proc/net/bonding # cat bond1影響を受けるノードの出力で、単一ポートでリンク障害数が多いことが示されています。
Slave Interface: hic3
MII Status: up
Speed: 100000 Mbps
Duplex: full
Link Failure Count: 19024
Permanent HW addr:00:00:00:00:00:00
Slave queue ID: 0
Aggregator ID: 2
Actor Churn State: monitoring
Partner Churn State: monitoring
Actor Churned Count: 2
Partner Churned Count:2
- StorageGRIDログの
base-os-logs/var/log/syslogには、ポートフラッピングが表示されます。
Mar 1 22:36:45 localhost kernel: [16695796.894052]mlx5_core 0000:18:00.0 hic3: Link down
Mar 1 22:36:45 localhost kernel: [16695796.913271]bond1: (slave hic3): speed changed to 0 on port 2
Mar 1 22:36:45 localhost kernel: [16695796.997644]bond1: (slave hic3): link status definitely down, disabling slave
Mar 1 22:36:51 localhost kernel: [16695802.955633]mlx5_core 0000:18:00.0 hic3: Link up
Mar 1 22:36:51 localhost kernel: [16695803.013283]bond1: (slave hic3): link status up, enabling it in 200 ms
Mar 1 22:36:51 localhost kernel: [16695803.234008]bond1: (slave hic3): link status definitely up, 100000 Mbps full duplex
Mar 1 22:37:04 localhost kernel: [16695816.539922]bond1: (slave hic3): speed changed to 0 on port 2
Mar 1 22:37:05 localhost kernel: [16695816.624960]bond1: (slave hic3): link status definitely down, disabling slaveMar 1 22:37:09 Mar 1 22:36:45 localhostkernel: [16695796.792420] mlx5_core 0000:18:00.0 hic3: Link up