发现商业评论 旗下
洞察商业 启迪未来

英伟达Groq 3 LPU登场:与GPU协同,开启AI推理新时代

   时间:2026-03-17 21:29 来源:快讯作者:周琳

在近日举办的英伟达GTC大会上,一场关于AI计算架构的革命性变革引发全球关注。英伟达创始人黄仁勋身着标志性皮衣登台,宣布公司正式从"芯片制造商"向"AI基础设施工厂"转型,并公布了新一代Vera Rubin平台的全貌——这个包含7款芯片的"全家桶"系统,标志着AI算力竞争进入系统级博弈的新阶段。

核心突破来自名为Groq 3的语言处理单元(LPU)。这款采用500MB片上SRAM的芯片,通过150TB/s的内存带宽颠覆了传统AI加速器的设计逻辑。相较于依赖HBM的GPU架构,LPU在解码阶段的带宽优势达到7倍,特别适用于需要微秒级响应的智能体交互场景。英伟达超大规模计算副总裁Ian Buck形象比喻:"GPU像卡车运送海量货物,LPU则是摩托车在拥堵城市中灵活穿梭。"

系统级整合成为关键创新。Vera Rubin平台将Vera CPU、Rubin GPU与LPU通过NVLink-C2C技术连接,形成预填充-解码的流水线作业模式。在演示中,集成72颗Rubin GPU和36颗Vera CPU的NVL72机架,训练万亿参数模型所需的GPU数量减少75%,而推理能效比提升10倍。更引人注目的是,通过Dynamo软件框架的智能调度,AI代理间的通信速度从每秒100token跃升至1500token。

制造环节的突破同样值得关注。黄仁勋在演讲中特别感谢三星电子,确认其成为Groq 3 LPU的独家代工厂。这款采用三星4nm工艺的芯片将于2026年第三季度量产,首批256颗LPU组成的LPX机架可提供128GB片上内存和640TB/s总带宽。尽管单个LPU的内存容量有限,但通过数量堆叠与液冷散热设计,英伟达构建出全新的推理加速范式。

市场格局因此生变。传统上在训练市场占据绝对优势的英伟达,正通过LPU补齐推理领域的短板。测试数据显示,新架构在运行万亿参数模型时,每瓦特推理性能提升35倍,每百万token成本降至45美元。这种性能跃升使得OpenAI、Anthropic等头部企业成为潜在客户,预计将率先在多智能体系统中部署该技术。

技术代价与工程妥协同样明显。SRAM的高成本与大面积占用,迫使英伟达采用机架级解决方案。每个LPX机架需要640TB/s的专用互联接口,且芯片数量需求远超传统架构。Ian Buck承认:"从单位芯片的经济性看,LPU的token吞吐量成本并不占优。"但英伟达认为,在智能体交互成为主流的未来,这种设计是必要的技术储备。

这场变革也重塑了半导体供应链。三星通过承接LPU代工订单,从存储供应商升级为全面制造伙伴,与台积电在AI芯片领域形成直接竞争。而英伟达保持的CUDA生态兼容性,则确保现有客户无需重构代码即可升级系统,这种"软硬协同"的策略可能成为其巩固市场地位的关键。

 
 
更多>同类内容
全站最新
热门内容