当全球AI算力竞争进入新阶段,网络架构正成为决定超大规模集群效率的关键变量。OpenAI与英伟达等五家科技巨头联合发布的MRC传输协议,以及中国智谱联合清华大学、驭驯网络推出的ZCube网络架构,标志着AI基础设施从"堆卡竞赛"转向"系统效率优化"的转折点。
在训练规模突破十万卡级后,AI集群面临新的技术挑战。以ChatGPT为例,其每周9亿活跃用户产生的推理请求,需要集群内数千块GPU高频交换中间数据。传统Clos架构下,负责"理解问题"与"生成回答"的GPU通过KV Cache跨节点通信时,极易出现局部链路拥塞——就像城市交通中,少数主干道承载过量车流,而周边道路却闲置,导致整体通行效率低下。智谱技术团队通过实验证实,在相同GPU配置下,仅将网络带宽从100Gbps提升至200Gbps,推理吞吐量即可提升19%,首Token延迟降低22%,印证了网络已成为制约算力释放的核心瓶颈。
针对PD分离推理场景的结构性拥塞,ZCube架构通过"扁平化"设计实现突破。该方案摒弃传统金字塔式层级结构,将底层交换机分为两组全互联,并采用混合接入方式使每块GPU同时连接两组交换机。这种设计使任意两GPU间通信仅需经过两台交换机,路径长度缩短50%以上。实测数据显示,在千卡级GLM-5.1推理集群中,ZCube使GPU平均吞吐提升15%,首Token延迟的99分位值降低40.6%,同时将交换机与光模块成本削减三分之一。按万卡规模估算,仅硬件采购即可节省2.1亿至6.4亿元。
与ZCube侧重推理场景不同,OpenAI的MRC协议聚焦训练网络的效率优化。该协议通过多路径并发传输和智能路由技术,在现有多平面两层以太网结构上实现微秒级故障绕行,有效解决大规模GPU同步训练时的尾部延迟问题。目前,MRC已部署于OpenAI最大规模的英伟达GB200超算集群,并用于训练多个前沿模型,其协议规范通过Open Compute Project向全行业开放。
两种技术路径的差异,折射出中美AI产业的不同资源约束。当OpenAI依托英伟达等全产业链伙伴进行协议层优化时,中国AI企业正通过产学研协同探索架构创新。智谱的实践显示,ZCube不依赖特定GPU生态,在华为昇腾、寒武纪等国产芯片与英伟达混合部署的集群中同样有效。这种"硬件解耦"特性,使网络优化成为提升多元算力组合效率的通用解决方案。
值得关注的是,ZCube的落地并非简单技术替换,而是涉及物理层改造的系统工程。驭驯网络开发的自动化工具链,覆盖机房布局设计、连线校验、配置生成等全流程,将原本需要数月的集群改造周期压缩至两周内完成。这种工程化能力,标志着网络架构优化已从学术研究转化为可规模化部署的生产技术。
随着全球AI集群规模突破十万卡门槛,系统效率正在取代单一硬件性能成为竞争焦点。无论是MRC的协议创新还是ZCube的架构重构,都指向一个共同趋势:在GPU供给受限的背景下,通过优化数据流动路径释放现有算力潜力,正在成为AI基础设施演进的新方向。这场由网络架构引发的变革,或将重新定义超大规模AI系统的技术标准与成本结构。











