Kimi新架构引行业关注！17岁高中生共著论文成焦点-3C数码-发现者网

发现商业评论旗下

洞察商业启迪未来

研究团队的核心灵感源于对网络深度与序列时间维度的对偶性观察。传统残差连接通过无差别累加各层信息，导致早期特征被稀释且训练不稳定。而Attention Residuals技术创造性地让当前层动态选择需要关注的前置层信息，通过可学习的伪查询向量与前层输出构建注意力机制，实现了信息的选择性聚合。这种设计使模型在保持推理延迟增加不到2%的同时，训练效率提升了25%。

为解决计算复杂度随层数平方增长的问题，研究团队提出了Block AttnRes分块压缩方案。该方案将连续层划分为块，每块结束时生成摘要向量，后续层仅需关注块间表征与块内实时输出。这种创新使注意力计算复杂度从O(L²)降至O(L·B)，在保持性能的同时显著提升了计算效率。团队还通过缓存式流水线通信等工程优化，进一步增强了技术的实用性。

这项研究的共同第一作者之一陈广宇的成长轨迹颇具传奇色彩。这位北京中学生通过黑客松活动崭露头角，其设计的"ThirdArm"机械辅助手项目获得评委董科含的关注。在导师指导下，他系统学习了Transformer架构等底层技术，并通过研读经典论文、参与GitHub开源项目逐步建立认知。这种从兴趣到专业能力的蜕变，最终将他带入了Kimi团队的核心研发圈。

在Kimi Linear架构的验证中，Attention Residuals技术展现了显著优势。同等计算预算下，采用该技术的模型在数学推理、代码生成等任务中表现优异，多语言理解的一致性也得到改善。更值得关注的是，这项技术可作为残差连接的直接替代方案，无需修改网络其他部分即可实现性能提升。研究团队将其视为"时间-深度对偶性"的重要实践，认为深度神经网络的层处理与循环神经网络的时间步处理本质相通。

陈广宇的学术经历折射出新一代科研工作者的成长路径。从经营跨境电商到专注底层技术研究，他的转变始于对Transformer架构的深入探索。在硅谷实习期间，他参与了涉及144张H100显卡的探索性项目，并在CEO指导下延伸至运营层面工作。这种从理论到实践的完整训练，使他能够在Kimi团队中迅速承担核心研发任务。目前，该技术的完整实现已开源，为AI社区提供了新的研究范式。

记者在招聘会现场了解到，与往年不同的是，今年春招，超过一半的企业都设置了机器人、人工智能等科技创新类的岗位。傅强是北京一家科技企业的AI技术人员，他告诉记者，如今在完成工作时，已经不再“孤军奋战”，而是和…

如今，6G已进入技术攻坚及标准博弈关键阶段，中信科移动全面引领6G国际标准化，累计发布9本6G白皮书，申请超1200项6G专利，投资150亿元的6G产业园将于今年在武汉光谷投产运营。在光纤光缆领域领先全球…

如果仅仅依靠融资来输血，而不能从根本上解决管理机制僵化、一线执行力下降、产品创新乏力等结构性问题，那么再多的资金也只会是在填补一个无底洞。我们要深刻认识到，西贝这些年在战略定位上其实有着极具前瞻性的布局，即着…

【CNMO科技消息】根据SamMobile的最新报道，三星即将推出的首款智能眼镜Galaxy Glasses以及新一代Galaxy Watch 9的电池容量信息已被披露。这款设备将成为三星的首款智能眼镜，并会…

全球智能清洁领域的领军企业——石头科技，在刚刚落幕的2026年中国家电及消费电子博览会上，以全系旗舰产品矩阵闪亮登场，涵盖了扫地机器人、洗地机、洗衣机三大品类，展示了其在技术创新上的深度与广度。这句话道出…

海尔智慧家庭研究院副院长牛博介绍，2025年中国家电及消费电子博览会（AWE 2025）期间，海尔率先推出的“AI之眼”，相当于给家电装上了人类般的“视觉神经中枢”，可辅助完成衣物识别、烹饪监测等家务操作。…

发现者网 - 深度洞察行业动态引领市场先锋平台 - 发现商业评论旗下网站北京·通州天津·滨海山东·济南
发现者网（www.fxw.com.cn）所有稿件免费开放转载，转载请务必保留版权。
合作微信：netspread（注明:发现者网）
Copyright © FXW 2012-2023 www.fxw.com.cn All rights reserved. 鲁ICP备2022032383号-3 鲁公网安备37010202700500号