发现商业评论 旗下
洞察商业 启迪未来

中国团队重构网络架构:万卡集群不加GPU,算力与效率双提升

   时间:2026-05-21 15:42 来源:快讯作者:柳晴雪

当全球AI大模型厂商还在比拼GPU数量时,中国团队已悄然开辟新战场——通过重构网络架构,在未增加任何硬件成本的情况下,将推理集群算力提升15%。智谱联合清华大学、驭驯网络研发的ZCube架构,在GLM-5.1生产集群中实现突破性验证,这项发表于ACM SIGCOMM 2025的成果,被国际学术界评价为"将重塑网络设计范式"。

传统数据中心沿用二十年的Fat-Tree/Clos架构,在应对大模型推理时暴露致命缺陷。当32卡集群将网络带宽从100Gbps升级至200Gbps,推理吞吐提升19%的同时,首Token时延下降22%——这组智谱实测数据揭示残酷现实:GPU性能天花板正被网络拥塞锁死。在PD分离部署场景中,Prefill与Decode节点间动态不对称的数据流,使传统架构的热点堆积问题愈发突出,万卡集群中甚至出现30%的GPU因等待数据传输而闲置。

ZCube架构的颠覆性在于彻底重构拓扑逻辑。其核心设计原则确保任意两张GPU间仅存在一条最优路径,通过消除多路径选路冲突,从架构层面将结构性拥塞概率降低80%。更关键的是2跳网络直径设计——既突破单层组网的规模限制,又避免传统二层架构的延迟累积。这种"专属路网"模式使千卡集群的推理吞吐提升15%,TTFT P99延迟下降40.6%,同时削减三分之一交换机与光模块成本。在万卡规模下,仅光网络硬件即可节省2.1-6.4亿元。

这场架构革命带来的连锁反应正在重塑产业链。当OpenAI联合NVIDIA等巨头推出MRC多路径协议时,两种技术路线形成有趣互补:MRC通过智能调度优化"交通规则",ZCube则通过拓扑重构预防"道路拥堵"。这种差异使以太网加速取代InfiniBand成为主流选择——Dell'Oro数据显示,2025年AI后端网络中以太网份额已超60%,800G光模块需求随之激增。

在智谱的千卡生产集群中,ZCube改造涉及重新设计布线模式、IP编址和路由策略等复杂工程。驭驯网络开发的自动化工具包,使原本需要数月的改造工程压缩至两周内完成。这种"零代码修改"的升级模式,为存量AI基础设施提供了立竿见影的优化路径。当行业开始重新评估算力价值时,ZCube证明:通过系统级创新挖掘现有硬件潜力,其经济效益不亚于新增GPU投入。

随着推理集群向十万卡规模演进,网络瓶颈正呈现指数级放大趋势。ZCube架构展现的扩展性令人瞩目:单层Leaf交换机即可支持16384块400G网卡互联,若采用更高密度交换机,理论可连接数十万GPU。这种"扁平化"设计使规模效应产生质变——集群越大,省下的交换机和光模块成本越多,性能优势越显著。当AI竞争进入深水区,网络架构正在从底层支撑转变为核心生产力,这场静悄悄的革命或将重新定义算力竞赛规则。

 
 
更多>同类内容
全站最新
热门内容