滚动资讯

马斯克等大佬点赞！Kimi 论文革新残差连接，或开启深度学习新篇

时间：2026-03-18 21:40 来源：快讯作者：孙明

当全球AI领域还在围绕注意力机制、混合专家模型（MoE）等上层架构展开激烈竞争时，一支中国团队将突破口对准了深度学习最基础的组件——残差连接。月之暗面Kimi团队发布的《Attention Residuals》技术报告，通过数学推导与工程创新，在保持算力不变的情况下，使模型训练效果达到传统方法1.25倍算力投入的水准，这项成果不仅获得马斯克、OpenAI核心成员等硅谷顶尖人物的公开认可，更被视为深度学习范式转型的关键信号。

自2015年ResNet论文提出残差连接以来，这项技术始终是现代神经网络的核心支柱。其通过在每层网络中增设"直通通道"，使梯度能够绕过中间变换直接反向传播，解决了深层网络训练中的梯度消失难题。然而这种"无差别等权叠加"的信息聚合方式，导致模型越深时底层贡献越微弱，形成所谓的PreNorm稀释效应——已有研究显示，部分大模型中超过30%的中间层对最终效果影响可忽略不计。

Kimi团队的突破源于对注意力机制的深度类比。他们发现残差连接在深度方向的信息传递问题，与循环神经网络（RNN）在时间方向的信息遗忘具有相同的数学结构。通过将注意力机制从处理序列的横向维度，旋转90度应用于网络深度的纵向维度，创新性地提出"深度方向注意力"：每层网络配备可学习的查询向量，根据任务需求动态选择需要参考的前序层信息，实现信息聚合的精细化控制。

这项被命名为AttnRes的技术实现极具工程智慧。为避免全量连接带来的内存爆炸问题，团队开发出Block AttnRes架构，将网络划分为若干模块，模块内部保留传统残差连接，模块间采用注意力机制进行信息交互。配合跨阶段缓存机制与两阶段计算策略，在480亿参数规模的实验中，训练开销增幅控制在4%以内，推理延迟增加不超过2%，却实现了验证损失的持续降低。

实验数据显示，采用AttnRes的模型在15项主流基准测试中全面持平或超越基线，尤其在博士级科学推理（GPQA-Diamond）任务中提升7.5%，数学解题（Math）与代码生成（Humaneval）分别提升3.6%与3.1%。可视化分析揭示，新架构使各层梯度分布更均匀，既保持了局部信息传递的主导性，又形成了跨层的长程依赖关系，这种特性使模型在参数规模扩大时仍能保持性能增益。

这项突破引发的连锁反应正在显现。在GTC 2026演讲中，Kimi创始人杨植麟披露了系列底层技术创新：MuonClip优化器将计算效率提升至AdamW的两倍，Kimi Linear架构实现超长上下文5-6倍解码加速，跨模态训练甚至提升了纯文本任务的性能。这些进展共同勾勒出"Token效率×长上下文×智能体协作"的三维Scaling框架，标志着深度学习进入资源利用效率与系统复杂度协同提升的新阶段。

更多>同类内容

苹果CEO库克成都亮相：赞四川文化底蕴深厚且创新活力满溢

03-18

小米新一代SU7明晚上市！小订客户超十几万，门店扩容限流，雷军：物超所值

03-18

王腾携手梅耶·马斯克与前OPPO产品经理Monica 共赴喜临门智能睡眠新品盛宴

03-18

长飞光纤第三大股东长江通信计划2026年减持不超0.12%股份

03-18

瑞众保险衢州中支：应急演练筑防线提升消费投诉处理能力

03-18

春日限定美味来袭！江苏启东紫菜丰收山东菏泽春菜尝鲜正当时

03-18

龙虎榜风云：云赛智联获游资青睐红宝丽遭深股通与机构减持

03-18

情绪消费浪潮下：IP联名与自创IP如何解锁商业增长新密码？

03-18

昇兴股份2025年业绩：净利润降27% 董事长降薪职工人均薪酬15万

03-18

2026年中国机场建设行业全景透视：重点城市布局与未来格局展望

03-18

万国数据-SW午后涨超16% 2025年业绩亮眼实现扭亏为盈

03-18

外资巨头纷纷加仓国产存储芯片企业乘AI东风迎发展新机遇

03-18

长江中游城市群跻身中国第五极！武汉领衔，光谷四家AI企业市值破4000亿

03-18

人均40元“平替萨莉亚”爆火，济南莫利塞如何用60家店搅动平价西餐市场？

03-18

AI智能空调中国销量第一奥克斯以“好空气AI调”焕新定位

关于智能空调的想象，行业长久以来都只是卷哪家APP界面更花哨，比谁能多接入一个生态平台，却少有人跳出固有思维反问：智能的本质，就是让机器等指令吗？2026年3月12日，在AWE这个全球消费电子科技盛宴上，奥克斯家

03-18

点击查看更多 +

全站最新

深圳高三生陈广宇成Kimi重磅论文一作获马斯克点赞引全球AI圈关注

小米辅助驾驶全新升级：XLA认知大模型加持，2年追赶同行十年进程

马斯克盛赞！Kimi 论文革新残差连接深度学习底层范式迎新变

雷军官宣：新一代小米SU7明日发布，全系内置ETC且免费激活

苹果50周年庆典全球巡礼：库克现身成都，致敬中国制造与创新未来

库克亲口否认卸任传闻：热爱工作，直言无法想象没有苹果的生活

热门内容

本栏最新

雷军分享小米HAD辅助驾驶新进展：SU7全系搭载，打通两大任务迎升级

雷军宣布小米HAD辅助驾驶升级：SU7标配XLA模型，智驾技术获关键突破

雷军“不想背刺老用户”引共鸣，真诚态度获网友力赞与行业认可

河北鼎瓷科技启动IPO辅导备案：金华江卸任总经理，钱旭锋接棒掌舵

雷军官宣！小米“蛟龙底盘”亮相，苏炳添代言SU7即将上市

马斯克放话：xAI 2026年底追平头部 2029年或成AI领域领跑者

发现者网 - 深度洞察行业动态引领市场先锋平台 - 发现商业评论旗下网站北京·通州天津·滨海山东·济南
发现者网（www.fxw.com.cn）所有稿件免费开放转载，转载请务必保留版权。
合作微信：netspread（注明:发现者网）
Copyright © FXW 2012-2023 www.fxw.com.cn All rights reserved. 鲁ICP备2022032383号-3 鲁公网安备37010202700500号