OpenAI携手五巨头开源革命性超算协议:一举解决超大集群LLM训练不稳定和网络性能难题¶
Ch01.275 OpenAI携手五巨头开源革命性超算协议:一举解决超大集群LLM训练不稳定和网络性能难题¶
📊 Level ⭐⭐ | 13.3KB |
entities/openai携手五巨头开源革命性超算协议一举解决超大集群llm训练不稳定和网络性能难题.md
背景:为什么需要MRC¶
在Stargate(星际之门)之前,OpenAI已与合作伙伴历时数年,共同开发、部署并维护了三代超级计算机。这段经历让OpenAI深刻认识到,要在Stargate这样的规模下高效使用算力,必须重新思考并大幅降低整个技术栈每一层的复杂度,网络设计也不例外。
训练大模型时,每一步都可能涉及数百万次数据传输。只要有一次传输延迟,影响就会在整个训练任务中扩散,让GPU白白等待。网络拥塞、链路故障、设备故障,是造成这类延迟的最常见原因。
问题还会随着集群规模的增大变得更严重、更难解决。OpenAI面临两个核心挑战:第一,尽量避免网络拥塞——虽然部分瓶颈无法消除(比如两块GPU同时向同一目标发送数据),但其他情况下的拥塞可以通过设计来规避;第二,把网络故障对训练任务的影响压到最低——在足够大的规模下,即使是最优质的网络,也会持续出现链路和交换机故障。以前一次故障就可能让训练任务崩溃,要么从上一个检查点重新开始,要么等待网络重新计算路由,这个过程可能要花上几十秒,在GPU算力和时间上都是巨大的浪费。同步预训练场景下,成千上万块GPU跨机器协同、步调一致地训练同一个模型,任何一次链路抖动的影响都被成倍放大。
MRC是什么¶
MRC(Multipath Reliable Connection,多路径可靠连接)的目标,不只是快,还要做到性能可预期,即便面对故障也如此。
OpenAI的Scaling团队与AMD、Broadcom、英特尔、微软、英伟达合作,历时两年开发出了这个协议。MRC内置于最新的800Gb/s网络接口,可以把单次传输分散到数百条路径上,在微秒级别绕过故障,同时运行更简单的网络控制平面。
MRC基于RoCE(RDMA over Converged Ethernet)扩展而来,RoCE是IBTA标准,支持GPU和CPU之间的硬件加速远程直接内存访问。MRC在此基础上借鉴了超以太网联盟(UEC, Ultra Ethernet Consortium)的技术,并进一步引入基于SRv6(IPv6 Segment Routing)的源路由,以支持大规模AI网络架构。
目前,MRC已在OpenAI所有最大规模的英伟达GB200超级计算机上部署,包括位于德克萨斯州阿比林的Oracle Cloud Infrastructure(OCI)站点,以及微软的Fairwater超级计算机。MRC已用于训练OpenAI多个模型,使用了英伟达和Broadcom的硬件。
相关论文:Resilient AI Supercomputer Networking using MRC and SRv6(https://openai.com/index/mrc-supercomputer-networking/)
三大核心机制¶
1. 多平面网络(Multi-Plane Network)¶
传统做法是把一个网络接口当作一条800Gb/s链路使用。MRC把它拆成多条更小的链路,比如一个接口连接八台不同的交换机,形成八个并行的独立网络平面,每个平面运行在100Gb/s。
这个变化对集群架构影响很大。一台能以800Gb/s连接64个端口的交换机,换成100Gb/s后可以连接512个端口。这样只需两层交换机,就能构建一个全互联约13.1万块GPU的网络。传统的800Gb/s网络则需要三到四层。
结果是:成本更低、功耗更低、路径冗余更多。同时,更多流量可以留在Tier 0交换机本地处理,性能更好。
但路径多了,充分利用也是难题。传统AI训练网络协议要求每次传输走固定路径,保证数据包按序到达。在大型多平面网络里,这会带来两个问题:不同数据流在同一链路上碰撞造成拥塞,以及每条数据流只能用一个平面。如果只做多平面网络、不改协议,结果反而会拥塞严重、性能很差。
2. 自适应包喷射(Adaptive Packet Spray)¶
MRC从根本上改变了这一模式。它把单次传输的数据包分散喷射到数百条路径上,跨越所有平面。数据包可以乱序到达,但每个MRC数据包都包含最终内存地址,目标端收到后可以直接按地址写入内存,无需等待重排序。
每条MRC连接对所用的多条路径维护少量状态。检测到某条路径出现拥塞,就切换到另一条,让负载在网络中均匀分布。如果丢包,MRC会立即停用该路径,重传可能丢失的数据包,并发送探测包确认是否真的发生故障、故障是否已恢复。
拥塞也会造成丢包。MRC通过包裁剪来处理这种情况:如果交换机因拥塞需要丢弃某个数据包,它会把载荷裁掉,只把包头转发给目标端,触发显式重传请求。这样可以减少误判,避免把拥塞丢包错误识别为路径故障。
多平面拓扑、包喷射、负载均衡、包裁剪组合在一起,让MRC能在微秒级别检测故障并绕行,而传统网络架构绕过故障可能需要几秒甚至几十秒。
3. SRv6源路由(Source Routing)¶
传统交换机运行BGP等动态路由协议来计算路径、绕过故障。但交换机是运行复杂软件的复杂设备,出现微妙故障时,问题难以诊断,修复前可能一直影响连接。
有了MRC,动态路由变得不再必要。MRC直接禁用动态路由,改用IPv6 Segment Routing(SRv6)。SRv6让发送方直接在每个数据包里指定路径,做法是把交换机标识符序列嵌入数据包的目标地址。
转发时,交换机检查目标地址中是否包含自己的标识符,如果包含,就把它移除,将目标地址向后移动,露出下一跳交换机的标识符,再查静态路由表确定下一跳。这个静态路由表在交换机初始配置时写入,之后不再更改。
路径失效,MRC停用即可。交换机不需要重新计算路由,只需按照静态路由盲目转发。
实际表现¶
训练网络有数百万条链路。在足够大的规模下,链路抖动不可避免。OpenAI观察到Tier-0和Tier-1交换机之间每分钟都会出现多次链路抖动,但MRC保证这些抖动对同步预训练任务没有可测量的影响,严重程度甚至不需要立即安排维修。
更大的考验是交换机重启。在训练某个近期ChatGPT和Codex前沿模型期间,OpenAI不得不重启四台Tier-1交换机。以前,重启交换机需要运维团队非常小心,避免中断训练。有了MRC,甚至不需要通知正在跑训练任务的团队。链路维护也一样,以前需要协调停用链路,现在可以带电维修,能用就用,不能用MRC自动绕开,修好后自动恢复。
在GPU网络接口与Tier-0交换机之间的链路故障方面,以前一旦断链,训练任务就会失败。现在,8口网络接口丢失一个端口,最大速率降低八分之一,MRC检测到后重新计算路径、通知对端不再使用该平面,故障链路通常在一分钟内恢复,MRC随即把该平面重新纳入使用。实际上,丢失接口链路造成的性能下降,往往远小于物理带宽损失的比例。
总结¶
MRC带来三个关键优势:
一、两层交换机架构:只需两层以太网交换机,就能为超过10万块GPU的超级计算机构建多平面高速网络,容错能力强,功耗低于等效的三层或四层单平面网络。
二、自适应包喷射:让网络核心几乎不出现拥塞,显著降低同步训练中各数据流之间的吞吐量差异,多个任务共享集群时也互不影响。
三、SRv6源路由:快速绕过故障,只走正常路径,运行简单静态控制平面,彻底消除整类动态路由故障。
随着训练集群规模持续增长,网络设计越来越决定可用算力有多少能真正被用上。MRC帮助GPU在拥塞、链路故障和维护事件中保持协同,而这些情况在以前都会打断训练。在相当大的规模下,这种可靠性和效率不是锦上添花,而是同步前沿模型训练得以进行的前提条件。
→ 原文存档
深度分析¶
本文揭示了 {DOMAIN} 领域的核心发展趋势,对理解技术演进方向具有重要参考价值。
关键洞察¶
-
核心趋势:从多个维度的分析可以看出,行业正在经历从传统架构向智能系统的根本性转变
-
技术驱动因素:新型 AI 能力的引入正在重新定义产品形态和用户体验
-
商业影响:这一转变对现有市场格局和竞争态势产生深远影响
与行业整体趋势的关联¶
本文与同期发表的 System of Record→Intelligence 等文章共同构成了对 AI Native 时代企业软件演进的系统性分析框架
实践启示¶
-
架构评估:定期审视现有技术栈,判断是否需要进行智能化升级
-
渐进式迁移:采用增量式方法逐步引入新能力,降低迁移风险
-
数据基础设施:确保数据质量和结构化程度,为 AI 层提供可靠输入
-
团队能力建设:培养具备 AI 时代所需技能的工程团队