发现商业评论 旗下
洞察商业 启迪未来

22岁天才破解Claude Mythos架构!开源新模型融合创新思路参数量减半性能持平

   时间:2026-04-20 19:30 来源:快讯作者:顾青青

近日,AI领域掀起了一场不小的波澜:一位年仅22岁的创业者Kye Gomez,凭借公开论文和第一性原理,成功复现了Anthropic闭源已久的Claude Mythos核心架构,并将其开源项目OpenMythos公之于众。这一举动不仅让行业震惊,更引发了关于闭源实验室技术护城河是否依然存在的激烈讨论。

Kye Gomez,作为Swarms的创始人,此前还曾领导过Agora Labs,他的研究重点涵盖大规模多智能体系统、替代模型架构以及多模态模型。这位高中毕业后便投身创业的年轻人,在2021年至2024年间,同时担任了三家公司的联创或CEO,构建了一个以“APAC”为品牌的生态体系,业务范围横跨AI深科技、媒体、食品科技等多个领域。

此次,他通过OpenMythos项目,向世界展示了一个不依赖堆砌参数,而是通过“循环深度Transformer”(RDT)架构实现高效推理的模型。与传统大模型通过不断增加层数来提升性能不同,RDT架构采用同一套权重,在一次前向传播中循环运行最多16次,每循环一次,隐藏状态便更新一次,相当于模型“多想了一步”。这种设计不仅节省了显存,还降低了训练成本,为消费级硬件带来了福音。

OpenMythos的架构设计精妙,分为Prelude(序曲)、Recurrent Block(循环核心)和Coda(终章)三段。Prelude和Coda采用标准的Transformer层,而真正的计算核心则是中间的循环块。循环块中的更新规则结合了线性变换和Transformer计算,确保模型在循环过程中不会“跑偏”。项目还引入了多潜变量注意力机制,来自DeepSeek-V2,有效压缩了KV缓存,实现了显存的显著节省。

为了确保循环的稳定性,OpenMythos还设计了三个额外机制:LTI约束注入、自适应计算时间逐位置停机以及深度级LoRA适配器。这些机制共同作用,使得模型在循环过程中能够保持稳定,并允许每次迭代都有独立的行为调整能力。

实验数据表明,一个770M参数的循环模型,在同等训练数据下,能够达到1.3B标准Transformer的下游任务质量。这意味着,用一半的参数,就能完成同样的任务,参数效率直接翻倍。这一成果不仅挑战了传统的AI scaling法则,更预示着未来AI模型的发展方向可能将更加注重推理的深度和效率,而非单纯的参数数量。

Kye Gomez的这一壮举,不仅展示了年轻创业者的创新能力和技术实力,更对闭源实验室的技术优势构成了挑战。当一个人能够仅凭公开信息就重建出最核心的技术时,护城河便不再仅仅是架构本身。这一事件无疑将激励更多的研究者和开发者投身于AI领域的创新和探索中。

 
 
更多>同类内容
全站最新
热门内容