滚动资讯

马斯克盛赞Kimi新突破！大模型底层架构迎来十年未有之变局

时间：2026-03-18 18:56 来源：快讯作者：胡颖

在人工智能领域，底层架构的创新往往比上层应用的优化更具颠覆性。月之暗面Kimi团队近期发布的技术报告《Attention Residuals》（注意力残差），通过重构残差连接机制，在同等算力下将模型训练效率提升至传统方法的1.25倍，这项突破性成果引发了硅谷顶尖AI专家的广泛关注。OpenAI前核心成员Jerry Tworek甚至将其誉为"深度学习2.0的开端"，认为这项研究标志着基础范式变革的起点。

传统大模型普遍采用残差连接结构，这种自2015年ResNet论文提出的设计，通过保留原始输入的"直通道"解决了深层网络训练难题。但Kimi团队发现，这种等权叠加所有层输出的方式存在根本性缺陷：随着网络深度增加，中间层的贡献会被后续层的信息稀释，导致大量计算资源浪费在无效训练上。实验数据显示，现有模型中超过30%的神经网络层对最终效果影响微乎其微。

研究团队通过数学推导发现，残差连接在深度方向的信息聚合问题，与循环神经网络（RNN）在时间方向的信息衰减具有相同的数学结构。基于这个洞察，他们创造性地将Transformer的注意力机制从序列维度旋转90度，应用到网络深度维度。新设计的AttnRes模块为每层配备动态查询向量，使模型能够自主选择需要参考的前序层信息，就像为每个神经网络层配备了智能信息筛选器。

在工程实现上，团队采用分块注意力机制（Block AttnRes）解决大规模训练的内存瓶颈。通过将128层网络划分为8个计算块，在块间使用注意力机制、块内保留传统残差连接，既保证了效果又控制了计算开销。测试表明，这种设计在480亿参数模型上仅增加4%训练成本，就实现了验证损失显著下降。在博士级科学推理GPQA-Diamond基准测试中，新模型准确率提升7.5%，数学解题能力提升3.6%，代码生成质量提升3.1%。

这项突破的深层意义在于改变了模型架构的设计范式。传统模型偏好"宽而浅"的结构，而AttnRes技术使"窄而深"的架构成为更优选择。可视化分析显示，新模型训练过程中各层梯度分布更加均匀，有效解决了PreNorm结构中后期层数值爆炸的问题。更值得关注的是，这种信息聚合方式的变革为跨模态训练开辟了新路径，Kimi团队同期发布的Vision RL技术就通过类似机制，使纯文本模型在视觉任务上的表现提升2.1%。

Kimi团队同步披露的系列创新显示，这场底层技术革命正在全面展开。他们研发的MuonClip优化器将计算效率提升至AdamW的两倍，Kimi Linear架构在超长上下文处理中实现5-6倍解码加速。这些突破共同构成了"Token效率×长上下文×智能体协作"的三维Scaling框架，标志着大模型发展从资源堆砌转向效率革命的新阶段。正如研究团队在GitHub开源页面所强调的："当别人忙着给通天塔添砖加瓦时，我们选择重新夯实地基。"

更多>同类内容

雷军谈新一代SU7：成本承压或涨价，更重产销平衡提升购车体验

03-18

华为哈勃入股魔芯科技消费级3D打印领域迎新力量

03-18

百度AI DAY推出“龙虾”全家桶，搜索Skill领跑全球，OpenClaw生态再升级

这也是业内首次将专业的应用开发能力封装为可供智能体调用的技能包，并将其作为Skill开放给OpenClaw生态，打通龙虾创收最后一公里。3月12日，百度又推出了全球首款手机龙虾应用“红手指Operator”，…

03-18

微信灰度测试新功能：聊天图片可合并发送提升界面整洁度受好评

03-18

OPPO Find X9 Ultra进军全球市场：2亿像素五摄+顶级性能，本月或将亮相

03-18

库克否认退休传闻：热爱苹果工作 28年如一日难舍离任

PChome 3月18日消息，苹果公司CEO蒂姆·库克在接受媒体专访时，针对近期外界广泛流传的退休卸任传闻给出明确否定，直言相关说法均为不实消息，自己暂无离开苹果的计划。但这一说法遭到彭博社记者马克・古尔曼的…

03-18

2026深圳企业展厅设计公司实力大揭秘：这些佼佼者引领行业新潮流

03-18

创业板早盘强势上扬，成长指数领涨，易方达ETF前日吸金超6亿

03-18

阿里云AI算力存储最高涨34% 依托千问大模型调整商业策略重心

03-18

福建有序推进生成式AI备案工作 “融洽工业大模型”新近通过备案

为促进生成式人工智能创新发展和规范应用，福建省网信办会同相关部门，按照《生成式人工智能服务管理暂行办法》要求，有序开展我省生成式人工智能服务备案工作。近日，新增“融洽工业大模型”通过备案，现将相关信息予以公告…

03-18

雷军透露小米HAD辅助驾驶升级：引入XLA模型，两年走完同行多年路

3月18日，雷军分享小米辅助驾驶的最新进展：全文如下：小米HAD辅助驾驶全新升级XLA认知大模型，新一代SU7全系交付即搭载。这次升级标志着小米HAD辅助驾驶，首次打通了“辅助驾驶”和“具身机器人”两大…

03-18

2026随身WiFi怎么选？五大热门机型实测，帮你找到最优解

基于对市面上主流10款设备的极限压力测试与服务暗访，我们发布这份《2026年随身WiFi行业深度评测》，为您揭示行业真相，指明选购方向。本次评测摒弃了单纯堆砌参数的传统模式，转而关注用户真实感知的“体验维度…

03-18

雷军官宣：小米HAD辅助驾驶升级XLA大模型，SU7全系交付即享新体验

03-18

雷军分享小米辅助驾驶新进展：新一代SU7全系搭载，打通两大关键任务

03-18

资金连续13日抢筹！“HALO”资产受捧，中证红利质量ETF年内吸金超14.8亿

03-18

点击查看更多 +

全站最新

AWE2026极果前沿科技联展来袭！16+品牌齐聚，AI全场景应用等你探索

百度人事变动：何径舟轮岗至MEG，助力大模型深度融入搜索推荐业务

百度AI DAY推出“龙虾”全家桶，搜索Skill领跑全球，OpenClaw生态再升级

马斯克欲布百万卫星“织网”太空，中国稳健布局走出太空算力新路径

库克否认退休传闻：热爱苹果工作 28年如一日难舍离任

市值689亿璞泰来启动赴港IPO，董事长梁丰从基金经理到实业掌舵人之路

热门内容

本栏最新

百度AI DAY推出“龙虾”全家桶，搜索Skill领跑全球，OpenClaw生态再升级

库克否认退休传闻：热爱苹果工作 28年如一日难舍离任

雷军透露小米HAD辅助驾驶升级：引入XLA模型，两年走完同行多年路

石头科技AWE2026展实力：技术创新破难题，本地运营拓全球清洁市场新版图

雷军官宣：小米HAD辅助驾驶升级XLA大模型，SU7全系交付即享新体验

英伟达GTC开发者大会官宣：携手比亚迪吉利等车企共促L4自动驾驶量产

发现者网 - 深度洞察行业动态引领市场先锋平台 - 发现商业评论旗下网站北京·通州天津·滨海山东·济南
发现者网（www.fxw.com.cn）所有稿件免费开放转载，转载请务必保留版权。
合作微信：netspread（注明:发现者网）
Copyright © FXW 2012-2023 www.fxw.com.cn All rights reserved. 鲁ICP备2022032383号-3 鲁公网安备37010202700500号