发现商业评论 旗下
洞察商业 启迪未来

DeepSeek陈德里携AI合著论文:人类仅需2小时构思 智能体完成研究全流程

   时间:2026-05-27 12:26 来源:快讯作者:杨凌霄

DeepSeek研究员陈德里近日在个人博客发布了一篇关于自动研究智能体的研究综述论文,引发科技界关注。这篇论文采用人机协作模式完成,其中仅1%内容由他亲自撰写,其余99%由AI Agent完成,整个创作过程历时6天,历经6次迭代,调用Agent约108次,消耗64.8万token,最终生成2234行LaTeX代码。

论文核心贡献在于提出L1-L5自主分级体系,该体系借鉴自动驾驶领域的SAE标准,为混乱的AI Agent领域建立了清晰的发展脉络。L1级对应基础代码补全功能,如早期GitHub Copilot;L2级实现任务分解执行,需人类逐项审批;L3级可自主完成10-100步操作,仅在关键节点请求人类介入;L4级能在限定领域内独立完成从实验设计到论文撰写的全流程,但研究选题仍需人类指定;L5级作为终极目标,要求智能体具备自主选题、资源分配和跨领域研究能力,目前尚未实现。

研究团队通过六维特征矩阵对17个主流系统进行横向对比,发现当前行业前沿已接近L4水平。论文特别指出,制约L5级突破的关键因素并非模型算力,而是持续知识积累和可靠自我评估机制。陈德里在接受采访时表示:"现有系统在长时程研究中容易陷入认知循环陷阱,且缺乏有效的创新性评估方法,这导致自主研究能力存在明显天花板。"

论文还系统梳理了四大主流架构模式:单智能体循环以ReAct、Reflexion为代表,通过迭代推理实现简单任务;多智能体协作框架如CAMEL、AutoGen,采用分工协作机制但沟通成本较高;分层调度系统如Claude Code,擅长处理复杂长周期研究;工具增强执行模式则依赖代码执行环境、网页浏览等外部工具扩展能力边界。研究显示,不同架构适用于特定场景,实际开发中常采用混合架构以兼顾效率与可靠性。

这篇46页的论文包含7个图表和4个表格,参考文献多达103篇且全部经过验证。值得注意的是,论文中所有插图均由GPT-Image2生成,体现了AI在科研全流程的渗透。陈德里坦言,这种协作模式极大提升了研究效率:"同样规模的工作,传统方式至少需要一个月,现在我的直接投入时间不到2小时。"但他同时强调,人类研究者仍需把控研究方向和价值判断,避免陷入技术决定论的误区。

论文最后提出了六大待解决问题,包括上下文窗口限制、研究可复现性、安全伦理风险等。其中特别指出,当前单任务成本普遍超过50美元,高昂的研发费用可能加剧科研资源分配不均。这些开放性问题为学术界和产业界指明了后续探索方向,相关讨论已在GitHub等平台引发开发者热烈回应。

 
 
更多>同类内容
全站最新
热门内容