发现商业评论 旗下
洞察商业 启迪未来

马斯克xAI坐拥55万块英伟达GPU,算力利用率仅11%引业界质疑

   时间:2026-05-05 12:40 来源:天脉网作者:杨凌霄

马斯克旗下人工智能公司xAI正因算力利用效率问题陷入舆论漩涡。据内部文件披露,该公司当前模型浮点运算利用率(MFU)仅为11%,远低于行业平均水平,引发业界对其技术实力的质疑。这一指标意味着,理论上可支撑100份训练任务的硬件资源,实际仅能完成11份,公司总裁迈克尔·尼科尔斯在备忘录中直言该数据"低得令人尴尬",并要求团队在数月内将利用率提升至50%。

xAI目前部署了约55万块英伟达GPU,涵盖H100和H200系列芯片,规模仅次于少数科技巨头。尽管这些硬件较最新Blackwell架构落后一代,但如此庞大的算力集群仍令市场震惊。然而,硬件优势并未转化为实际效能——MFU作为衡量有效训练吞吐与理论峰值算力比例的核心指标,直接暴露了公司在系统优化方面的严重短板。

与行业基准相比,xAI的表现堪称落后。当前主流生产级大模型训练的MFU通常维持在35%-45%区间,meta和谷歌凭借成熟的软件堆栈分别达到43%和46%。即便在GPT-3训练时期被诟病"低效"的阶段,MFU也能稳定在21%-26%。xAI的11%不仅远低于行业主流,甚至不及AI算力发展早期的部分项目,这种反差加剧了外界对其技术能力的担忧。

技术分析指出,xAI的困境源于软件与硬件发展的失衡。公司长期沿用英伟达标准部署方案,但在软件堆栈、并行策略和模型工程优化等关键领域进展迟缓。具体问题包括:HBM显存读取速度滞后导致计算芯片频繁空转;数万块GPU同步训练时,网络拓扑中的任何瓶颈都会被急剧放大;显存压力、过度激活重计算以及张量并行带来的跨设备通信开销,共同构成了拖累MFU的系统性障碍。

值得关注的是,xAI的基建扩张速度堪称行业奇迹——其Colossus超级计算机仅用122天便完成建设,GPU规模在短期内实现指数级增长。但这种激进扩张策略也放大了软件优化的滞后性:当硬件部署以"月"为单位推进时,软件系统的迭代仍停留在"年"级周期,导致算力集群无法发挥应有价值。业内专家认为,如何平衡硬件扩张与软件优化节奏,将成为xAI突破当前瓶颈的关键。

 
 
更多>同类内容
全站最新
热门内容