发现商业评论 旗下
洞察商业 启迪未来

谷歌第8代TPU震撼登场:训练周期大幅缩短,推理成本减半性能跃升

   时间:2026-04-23 18:57 来源:快讯作者:周琳

谷歌近日正式推出第8代TPU,这款专为智能体(Agent)时代设计的芯片在训练与推理性能上实现重大突破,引发科技界与资本市场的广泛关注。其采用“训推分离”策略,推出TPU 8t与TPU 8i两款物理结构完全不同的芯片,分别针对模型训练与推理场景优化,标志着谷歌在AI硬件领域迈出关键一步。

针对推理场景的TPU 8i则以“低延迟”为核心目标。谷歌重构底层推理栈,将288GB高带宽内存与384MB片上SRAM集成至芯片,内存容量为上一代的3倍,减少数据搬运等待时间。系统效率层面,引入自研Axion CPU架构,服务器CPU主机数量翻倍,并通过NUMA隔离优化协同效率。针对MoE混合专家模型,互连带宽提升至19.2 Tb/s,Boardfly架构将网络路径长度缩短一半以上。新增的片上集体加速引擎(CAE)将全局操作移至芯片内部,延迟最高降至原来的1/5,每美元性能提升约80%,同等成本下服务能力接近翻倍。

谷歌选择“训推分离”的背后,是对智能体时代需求的精准洞察。训练场景强调“快”,推理场景则需“稳”,单一芯片难以同时满足两者。第8代TPU的成功,离不开谷歌对全栈技术的深度掌控。从这一代开始,TPU与谷歌自研Axion CPU形成深度协同,CPU-TPU配合方式可根据AI任务需求定制,最大化挖掘性能潜力。能源优化方面,谷歌将范围扩展至整个链路:从芯片到网络,再到数据中心,均围绕“省电”重新设计。例如,将网络连接集成至计算芯片,减少数据搬运;通过统一电源管理动态分配电力;数据中心与TPU协同设计,结合第四代液冷技术,使算力在更高能效区间稳定运行。这些优化使8t与8i的每瓦性能较上一代提升近2倍,数据中心单位电力算力五年内提升6倍。

开发者生态方面,谷歌将全栈能力开放给用户。8t与8i原生支持PyTorch、JAX、vLLM等主流框架,提供裸机访问权限,开发者可直接调用硬件真实性能。配合MaxText、Tunix等开源工具,模型训练到部署的路径进一步简化。谷歌此次明确提出“面向Agent时代的基础设施”定位,从硬件到生态的布局已初见雏形。

第8代TPU的发布,也引发对AI芯片竞争格局的讨论。此前,英伟达CEO黄仁勋在播客中回应“TPU威胁论”时表示,TPU仅在特定赛道取得突破,而英伟达通过CUDA生态覆盖AI、数据处理、科学计算等全场景,市场机会更广。他强调,英伟达的系统支持所有类型应用,客户可在任何场景建立需求。然而,随着AI算力需求持续膨胀,TPU的重要性正被重新评估——至少特斯拉CEO马斯克已公开表达对TPU潜力的认可。这场硬件竞赛的走向,或许将取决于技术突破与生态建设的双重博弈。

 
 
更多>同类内容
全站最新
热门内容