当全球AI领域还在围绕注意力机制、混合专家模型(MoE)等上层架构展开激烈竞争时,一支中国团队将突破口对准了深度学习最基础的组件——残差连接。月之暗面Kimi团队发布的《Attention Residuals》技术报告,通过数学推导与工程创新,在保持算力不变的情况下,使模型训练效果达到传统方法1.25倍算力投入的水准,这项成果不仅获得马斯克、OpenAI核心成员等硅谷顶尖人物的公开认可,更被视为深度学习范式转型的关键信号。
自2015年ResNet论文提出残差连接以来,这项技术始终是现代神经网络的核心支柱。其通过在每层网络中增设"直通通道",使梯度能够绕过中间变换直接反向传播,解决了深层网络训练中的梯度消失难题。然而这种"无差别等权叠加"的信息聚合方式,导致模型越深时底层贡献越微弱,形成所谓的PreNorm稀释效应——已有研究显示,部分大模型中超过30%的中间层对最终效果影响可忽略不计。
Kimi团队的突破源于对注意力机制的深度类比。他们发现残差连接在深度方向的信息传递问题,与循环神经网络(RNN)在时间方向的信息遗忘具有相同的数学结构。通过将注意力机制从处理序列的横向维度,旋转90度应用于网络深度的纵向维度,创新性地提出"深度方向注意力":每层网络配备可学习的查询向量,根据任务需求动态选择需要参考的前序层信息,实现信息聚合的精细化控制。
这项被命名为AttnRes的技术实现极具工程智慧。为避免全量连接带来的内存爆炸问题,团队开发出Block AttnRes架构,将网络划分为若干模块,模块内部保留传统残差连接,模块间采用注意力机制进行信息交互。配合跨阶段缓存机制与两阶段计算策略,在480亿参数规模的实验中,训练开销增幅控制在4%以内,推理延迟增加不超过2%,却实现了验证损失的持续降低。
实验数据显示,采用AttnRes的模型在15项主流基准测试中全面持平或超越基线,尤其在博士级科学推理(GPQA-Diamond)任务中提升7.5%,数学解题(Math)与代码生成(Humaneval)分别提升3.6%与3.1%。可视化分析揭示,新架构使各层梯度分布更均匀,既保持了局部信息传递的主导性,又形成了跨层的长程依赖关系,这种特性使模型在参数规模扩大时仍能保持性能增益。
这项突破引发的连锁反应正在显现。在GTC 2026演讲中,Kimi创始人杨植麟披露了系列底层技术创新:MuonClip优化器将计算效率提升至AdamW的两倍,Kimi Linear架构实现超长上下文5-6倍解码加速,跨模态训练甚至提升了纯文本任务的性能。这些进展共同勾勒出"Token效率×长上下文×智能体协作"的三维Scaling框架,标志着深度学习进入资源利用效率与系统复杂度协同提升的新阶段。











