在数据中心和企业核心网络中,高可用性(HA) 和 无缝升级 是刚需。传统的单机链路聚合(如LACP)只能防止单板或端口故障,而 M-LAG(Multichassis Link Aggregation Group,多机箱链路聚合组) 则能实现跨设备的链路聚合,将可靠性提升至设备级。
华为的M-LAG方案在数据中心网络广泛应用,如 CloudEngine(CE)系列交换机,可提供 双活转发、无缝切换、独立升级 等关键能力。本文将深入解析 M-LAG的概念、工作原理、组网实现及典型应用。
1.M-LAG是什么?
M-LAG是一种 跨设备链路聚合技术,允许 两台独立的交换机(如华为CE6850/CE6880)在逻辑上虚拟成一台设备,并与下游设备(服务器、交换机等)建立聚合链路(如LACP)。
对下游设备透明:下游设备只能感知到一个逻辑聚合组,无法识别M-LAG双活架构。 双活(Active-Active):两台M-LAG设备同时转发流量,提升带宽利用率。 设备级冗余:单台设备故障时,流量可毫秒级切换至对端,业务无感知。
2.M-LAG技术背景与优势
2.1 传统网络的局限性
早期数据中心采用 STP+VRRP 实现冗余,但存在明显缺陷:
二层链路利用率低:STP阻塞冗余路径,浪费带宽。 三层链路利用率低:VRRP主备模式,备用链路闲置。 服务器仅支持主备接入:无法实现双活负载均衡。
2.2 技术演进:从堆叠到M-LAG
为提升链路利用率与可靠性,先后出现两种方案:
1)堆叠技术:多设备虚拟为一台,简化管理但需整组重启升级。
2)M-LAG技术:
跨设备链路聚合:双活转发,二层/三层链路利用率均达100%。 设备级冗余:单设备故障不影响业务,支持独立升级。 服务器双活接入:通过LACP实现负载均衡与高可用。
2.3 M-LAG的核心优势
场景 堆叠方案 M-LAG方案 链路利用率 升级影响 可靠性 适用场景
M-LAG通过 双活转发、设备级冗余、独立升级 能力,成为数据中心高可靠接入的首选方案,尤其适合:
要求业务零中断升级的场景 需要最大化链路利用率的云环境 对网络可靠性要求苛刻的金融/政务网络
推荐选择:对可靠性要求高的场景,优先采用M-LAG技术。
3.M-LAG的工作原理
3.1M-LAG正常工作场景
3.1.1已知单播流量转发
当M-LAG正常工作时,自用户侧发往网络侧的已知单播流量(图中绿色流量)由M-LAG主备设备形成逐流负载分担,共同进行流量的转发。反之,自网络侧发往用户侧的已知单播流量(图中黄色流量)同样由M-LAG主备设备形成逐流负载分担,共同进行流量的转发。
3.1.2组播、广播和未知单播流量转发
当M-LAG正常工作时,自用户侧发往网络侧的组播、广播和未知单播流量(图中黄色流量)在设备间泛洪扩散。对于可能造成的环路(图中红色),则利用M-LAG的单向隔离机制隔绝由peer-link发往M-LAG成员口的流量。反之,当网络侧发往用户侧的组播、广播和未知单播流量(图中绿色流量)在设备间泛洪扩散时,同样利用单向隔离机制隔绝由peer-link发往M-LAG成员口的流量。
3.2M-LAG故障工作场景
3.2.1上行链路故障
M-LAG接入普通以太网场景,由于M-LAG主设备的上行链路故障,通过M-LAG主设备的流量均经过peer-link链路进行转发。M-LAG接入三层网络场景下,需要在M-LAG主备设备间配置三层逃生链路,使得到达M-LAG主设备的上行流量通过三层逃生链路到达M-LAG备设备。
当故障的上行链路恰好为双主检测链路,此时对于M-LAG正常工作没有影响。一旦peer-link也发生故障,M-LAG出现双主冲突,双主检测又无法进行,此时用户侧发往Master的流量会因为没有上行口而被丢弃。针对这个问题我们可以用管理口作为双主检测链路;也可以配置Monitor-link功能,将M-LAG成员口和上行口关联,一旦上行链路故障会联动M-LAG成员口故障,这样就防止了流量的丢失。
3.2.2M-LAG成员口故障
当M-LAG成员口故障时,用户侧发往网络侧的流量(图中绿色流量)由正常链路负载分担转发,网络侧不感知故障,流量依然发送给双归设备。由于M-LAG成员口故障,双归场景变为单归场景,此时端口隔离机制放开。当M-LAG成员口故障设备收到从网络侧发往用户侧流量(图中黄色流量),会通过peer-link将流量交给正常工作的M-LAG设备转发到用户侧。
当M-LAG成员口故障恢复后,M-LAG成员口UP会触发一次M-LAG系统的MAC表项同步,单归场景恢复为双归场景,流量恢复负载分担转发。
3.2.3 peer-link故障
M-LAG双归接入设备一旦感知peer-link链路状态为Down,会立即通过DAD链路发起一次双主检测。如果在一定时间内未收到对端发布的双主检测报文,则认为对端设备故障。如果收到对端发送的双主检测报文,则认为peer-link故障。
Peer-link故障时,两台M-LAG设备不能同时转发流量,若同时转发流量会出现广播风暴、MAC漂移等问题。因此M-LAG备设备会将除peer-link口、堆叠口和管理网口之外的所有物理接口Error-down。此时,流量都只会从M-LAG主设备转发。
Peer-link故障恢复后,peer-link接口UP,M-LAG系统将重新协商。协商完成后,为保障M-LAG的端口隔离机制生效,除M-LAG成员口以外的其他口恢复UP状态,而M-LAG成员口在4分钟后恢复UP状态。
3.2.4 M-LAG设备故障
M-LAG主设备故障,M-LAG备设备将升级为主,其设备侧Eth-Trunk链路状态仍为UP,流量转发状态不变,继续转发流量。M-LAG主设备侧Eth-Trunk链路状态变为Down,双归场景变为单归场景。
如果是M-LAG备设备发生故障,M-LAG的主备状态不会发生变化,M-LAG备设备侧Eth-Trunk链路状态变为Down。M-LAG主设备侧Eth-Trunk链路状态仍为UP,流量转发状态不变,继续转发流量,双归场景变为单归场景。
M-LAG设备故障恢复时,peer-link先UP,DFS状态重新协商,M-LAG成员口恢复UP,流量恢复负载分担。M-LAG主设备恢复后设备状态仍然为主,M-LAG备设备恢复后设备状态仍然为备。
4.如何实现M-LAG组网
在M-LAG系统中,ServerA、DeviceA和DeviceB进行跨设备链路聚合。DeviceA和DeviceB通过动态交换服务组DFS Group(Dynamic Fabric Service Group)完成M-LAG设备之间的配对,当DeviceA和DeviceB配对成功后会协商出主备关系。在M-LAG正常工作后,DeviceA和DeviceB之间通过peer-link链路实时同步对端信息。而M-LAG的故障检测则主要依赖于双主检测链路(DAD link,Dual-Active Detection link),设备通过双主检测链路定期互发心跳报文。
4.1 M-LAG组网示意图
4.2 M-LAG组网详细的实现流程
M-LAG组网详细的实现流程包括以下五步:
DFS Group配对-->DFS Group协商主备-->M-LAG成员口协商主备-->双主检测-->M-LAG信息同步。
5.M-LAG的应用场景
M-LAG主要应用于将服务器或交换机双归接入二层网络、VXLAN网络和三层网络,以及多级M-LAG。
5.1 M-LAG双归接入二层网络
M-LAG双归接入二层网络时,需要将两台M-LAG设备模拟成同一个STP逻辑节点,达到与STP对接破环的目的。
我们可以通过手动配置双归设备为STP网络根桥或配置VSTP协议,将M-LAG两个设备模拟成一个STP节点。其中,VSTP协议的作用主要是在双归设备之间同步STP协议状态,将两台设备以同一个状态对外进行STP协商。
如下图所示:
5.2 M-LAG双归接入VXLAN网络
M-LAG双归接入VXLAN网络时,需要将两台M-LAG设备虚拟成一个VTEP。无论是手工建立隧道还是通过MP-BGP自动建立隧道,DeviceA和DeviceB均用这个虚拟的VTEP的IP和外界建立VXLAN隧道。
如下图所示:
5.3 M-LAG双归接入三层网络
M-LAG双归接入三层网络时,M-LAG双归设备成为二层网络和三层网络的分界点,即承担网关的作用。由于是两台设备做网关,他们对网络侧需要展示相同的网关IP和MAC。在DeviceA和DeviceB上配置相同IP地址和虚拟MAC地址,达到相同网关的目的。
5.4多级M-LAG
在网络规模较大场景下,可以在Spine和Leaf同时部署M-LAG来保证链路可靠性。图中灰色底纹中的两台设备组成M-LAG。
多级M-LAG应用场景,不能使用手动配置根桥的方式来进行STP破环,需要通过VSTP协议来同步M-LAG双归设备的STP协议状态信息。
推荐本站淘宝优惠价购买喜欢的宝贝:
本文链接:https://zblog.hqyman.cn/post/12164.html 非本站原创文章欢迎转载,原创文章需保留本站地址!
休息一下~~