发现商业评论 旗下
洞察商业 启迪未来

Kimi新架构引行业关注!17岁高中生共著论文成焦点

   时间:2026-03-18 12:29 来源:快讯作者:柳晴雪

研究团队的核心灵感源于对网络深度与序列时间维度的对偶性观察。传统残差连接通过无差别累加各层信息,导致早期特征被稀释且训练不稳定。而Attention Residuals技术创造性地让当前层动态选择需要关注的前置层信息,通过可学习的伪查询向量与前层输出构建注意力机制,实现了信息的选择性聚合。这种设计使模型在保持推理延迟增加不到2%的同时,训练效率提升了25%。

为解决计算复杂度随层数平方增长的问题,研究团队提出了Block AttnRes分块压缩方案。该方案将连续层划分为块,每块结束时生成摘要向量,后续层仅需关注块间表征与块内实时输出。这种创新使注意力计算复杂度从O(L²)降至O(L·B),在保持性能的同时显著提升了计算效率。团队还通过缓存式流水线通信等工程优化,进一步增强了技术的实用性。

这项研究的共同第一作者之一陈广宇的成长轨迹颇具传奇色彩。这位北京中学生通过黑客松活动崭露头角,其设计的"ThirdArm"机械辅助手项目获得评委董科含的关注。在导师指导下,他系统学习了Transformer架构等底层技术,并通过研读经典论文、参与GitHub开源项目逐步建立认知。这种从兴趣到专业能力的蜕变,最终将他带入了Kimi团队的核心研发圈。

在Kimi Linear架构的验证中,Attention Residuals技术展现了显著优势。同等计算预算下,采用该技术的模型在数学推理、代码生成等任务中表现优异,多语言理解的一致性也得到改善。更值得关注的是,这项技术可作为残差连接的直接替代方案,无需修改网络其他部分即可实现性能提升。研究团队将其视为"时间-深度对偶性"的重要实践,认为深度神经网络的层处理与循环神经网络的时间步处理本质相通。

陈广宇的学术经历折射出新一代科研工作者的成长路径。从经营跨境电商到专注底层技术研究,他的转变始于对Transformer架构的深入探索。在硅谷实习期间,他参与了涉及144张H100显卡的探索性项目,并在CEO指导下延伸至运营层面工作。这种从理论到实践的完整训练,使他能够在Kimi团队中迅速承担核心研发任务。目前,该技术的完整实现已开源,为AI社区提供了新的研究范式。

 
 
更多>同类内容
全站最新
热门内容