十万卡GPU集群“不堵车”，算力背后的网络调度密码

锐捷AI-Fabric智算网络解决方案针对万卡级GPU集群的AI训练瓶颈，通过三级多轨组网、高达97%的带宽利用率与端到端零丢包设计，有效降低网络通信时延，释放算力。方案支持超大规模集群扩展，并借助智能运维实现网络可视化与自动化管理，已助力锐捷在高端数据中心交换机市场连续领先，为智算中心构建高效数据基础。

#交换机

发布时间：2025-12-24
点击量：
点赞：

分享至

我想评论

10月，Gartner发布2026年十大战略技术趋势：“AI超级计算平台”位列首位。并预测，到2028年，将混合计算范式架构应用于关键业务流程的领先企业将达到40%以上。

11月，信通院《人工智能算力基础设施赋能研究报告（2025）》指出：我国人工智能算力基础设施正处于系统性升级与架构演进的关键时期，未来将进入超大规模集群化、绿色低碳化与高速互联化阶段。

随着大模型参数规模从千亿级向万亿级迈进，算力集群中GPU间的通信效率已成为AI训练过程中的关键瓶颈。传统网络架构下，大规模GPU集群的计算效率往往难以实现线性增长，网络通信时间占比甚至高达30%以上。

这意味着：真正的AI产业竞争力不止来自GPU的规模，模型训练、推理、调度全过程的数据流效率，也同等重要。在这个意义上，AI网络已经成为新的基础设施主战场。

训练吞吐慢，网络效率常“背锅”

多个公开行业分析都指出，随着模型参数和训练数据规模的指数式扩张，网络在AI集群中的成本与瓶颈正在快速上升。这背后有几个本质变化：

1.AI 集群结构从“单机强”转向“多机耦合强”

AI训练吞吐越来越依赖节点间通信效率，比如：All-Reduce过程的同步等待、模型并行带来的跨节点梯度交换、海量训练样本的数据分发。

行业普遍认为，大规模AI训练任务中，网络通信占用的时间可能已接近甚至超过算力计算时间。如果通信效率低，即便拥有成百上千张GPU，也难以实现线性扩展。

2.东西向流量爆炸，需要极低时延与无损网络

过去，云数据中心是“南北向业务流”为主。而现在，AI集群则是典型的“东西向流量密集型系统”，部分大型数据中心的东西流量占比甚至超过70%。不同于“南北向流量”单向性为主、单次请求数量小等特征，“东西向流量”内部服务器之间双向通信频繁、并发数据量极大。内部带宽不足、交换机拥塞、延迟抖动……成为主要网络困境。

因此，AI网络（具备无损以太网络、拥塞控制、基于流特征的智能调度算法等能力）已经不是“锦上添花”的性能优化价值，而成为训练跑通的“基础设施”。

3.AI训练与推理的部署模式更加多样化

信通院报告显示：当前运营商、AI头部厂商正从“集中式大集群”走向更为多样化的体系，即训练仍集中在超大规模GPU集群以确保吞吐与成本效率，但推理工作则逐步向边缘节点、行业专用集群以及业务侧的轻量化服务下沉。同时，多业务团队、多个模型版本的并行运行成为常态，训练与推理往往需要在同一基础设施上混合编排。

由此，“训练中心+推理边缘+混部调度”的立体化模式正成为主流，也对底层网络提出更高的智能化、隔离性与可观测性要求。

“算网合一”成必然趋势

传统IT基础设施中，算力、存储、网络是相对独立的模块。但在AI中，三者正在融合为一个整体资源池，而网络承担着“粘合剂”的角色。未来的AI基础设施有几个明显方向：

趋势1：面向AI场景的网络自治能力

AI训练的通信图谱更复杂、流量突发更剧烈，需要网络具备：自动识别训练阶段；自适应优化拥塞算法；智能路径选择；隐式保障关键流。也就是说，网络需要像调度系统一样“理解AI”。

趋势2：端到端可视化成为主战场

大模型玩家越来越意识到：训练稳定性的问题，不仅靠“堆GPU”，还需要“观察GPU为什么没被充分利用”。因此，AI网络需要做到：GPU、CPU、网络设备的跨维度监测；PSL/Flow性能的实时可观察；对端到端训练任务的运行视角重建。可视化的价值，不仅是“监控”，更是训练效率优化的基础。

趋势3：开放生态与异构算力的并存

未来企业的AI集群不可能只基于单一GPU、单一框架或单一网络厂商。行业趋势明显指向：以太网继续成为主流承载方案；硬件与编排软件协同优化；多厂商设备混部成为常态。这对网络系统的开放性、兼容性提出了更高要求。

简而言之，大规模训练集群如今像一座复杂工厂，而非一个机房。AI网络要解决的不只是“带宽”问题，而是“效率”与“可预测性”问题。

AI-Fabric智算网络，为啥能满足AI训练需求？

锐捷AI-fabric智算中心网络解决方案，本质上是针对上述趋势给出的一个系统化回答。其价值不在于某个单点技术，而在于“把网络当作AI工程的一部分来设计”。

一起来看，它怎么系统性满足智算中心的AI训练需求？

1.十万卡GPU “不堵车”，网络不再成为训练瓶颈

传统网络就像单车道，设备多了必然堵。锐捷用 “三级多轨组网”，相当于给数据修了 “专属高速网”：

每张GPU网卡都有 “专属通道”，数据不用绕路，时延大幅降低；
支持多轨组网架构，三级组网最大能连100000+GPU集群。

说白了，就像给小区每个单元，都配备专属电梯直达车库，不用等、不拥挤，10万多 “住户”（GPU）出门都顺畅。

图1：102.4T高密交换机，具备百万卡组网能力

2.高达97%带宽利用率，释放极致算力

AI训练的核心矛盾的是 “数据传得慢，算力被闲置”。锐捷直接给数据传输装了 “超级加速器”，让算力全程满负荷运转，不浪费一分钱硬件成本：

400G/800G RoCE无损网络设计，低时延、高带宽；
只拓宽“通道”还不够，分流手段也很关键。基于不同场景的网络均衡方案：RALB管十万卡集群、AILB宏观调度全局、ENLB守核心链路，每个场景都有专属 “调度员”，使带宽利用率达97%；
值得注意的是网络 “1:1收敛比” 设计，不管多少设备同时传数据，保证带宽都不缩水。

这就像城市的“智能交通网”，不仅统计车流量，还能实时监测每条车道的路面状况、车辆速度和拥堵程度，动态调整信号灯，进而保证所有道路资源被有效利用，避免拥塞。