发现商业评论 旗下
洞察商业 启迪未来

马斯克盛赞Kimi新突破!大模型底层架构迎来十年未有之变局

   时间:2026-03-18 18:56 来源:快讯作者:胡颖

在人工智能领域,底层架构的创新往往比上层应用的优化更具颠覆性。月之暗面Kimi团队近期发布的技术报告《Attention Residuals》(注意力残差),通过重构残差连接机制,在同等算力下将模型训练效率提升至传统方法的1.25倍,这项突破性成果引发了硅谷顶尖AI专家的广泛关注。OpenAI前核心成员Jerry Tworek甚至将其誉为"深度学习2.0的开端",认为这项研究标志着基础范式变革的起点。

传统大模型普遍采用残差连接结构,这种自2015年ResNet论文提出的设计,通过保留原始输入的"直通道"解决了深层网络训练难题。但Kimi团队发现,这种等权叠加所有层输出的方式存在根本性缺陷:随着网络深度增加,中间层的贡献会被后续层的信息稀释,导致大量计算资源浪费在无效训练上。实验数据显示,现有模型中超过30%的神经网络层对最终效果影响微乎其微。

研究团队通过数学推导发现,残差连接在深度方向的信息聚合问题,与循环神经网络(RNN)在时间方向的信息衰减具有相同的数学结构。基于这个洞察,他们创造性地将Transformer的注意力机制从序列维度旋转90度,应用到网络深度维度。新设计的AttnRes模块为每层配备动态查询向量,使模型能够自主选择需要参考的前序层信息,就像为每个神经网络层配备了智能信息筛选器。

在工程实现上,团队采用分块注意力机制(Block AttnRes)解决大规模训练的内存瓶颈。通过将128层网络划分为8个计算块,在块间使用注意力机制、块内保留传统残差连接,既保证了效果又控制了计算开销。测试表明,这种设计在480亿参数模型上仅增加4%训练成本,就实现了验证损失显著下降。在博士级科学推理GPQA-Diamond基准测试中,新模型准确率提升7.5%,数学解题能力提升3.6%,代码生成质量提升3.1%。

这项突破的深层意义在于改变了模型架构的设计范式。传统模型偏好"宽而浅"的结构,而AttnRes技术使"窄而深"的架构成为更优选择。可视化分析显示,新模型训练过程中各层梯度分布更加均匀,有效解决了PreNorm结构中后期层数值爆炸的问题。更值得关注的是,这种信息聚合方式的变革为跨模态训练开辟了新路径,Kimi团队同期发布的Vision RL技术就通过类似机制,使纯文本模型在视觉任务上的表现提升2.1%。

Kimi团队同步披露的系列创新显示,这场底层技术革命正在全面展开。他们研发的MuonClip优化器将计算效率提升至AdamW的两倍,Kimi Linear架构在超长上下文处理中实现5-6倍解码加速。这些突破共同构成了"Token效率×长上下文×智能体协作"的三维Scaling框架,标志着大模型发展从资源堆砌转向效率革命的新阶段。正如研究团队在GitHub开源页面所强调的:"当别人忙着给通天塔添砖加瓦时,我们选择重新夯实地基。"

 
 
更多>同类内容
全站最新
热门内容