滚动资讯

当前位置：发现者网 > 3C数码 > 正文内容

英伟达发布开源框架Polar，助力代码智能体训练表现显著提升

时间：2026-05-28 14:26 来源：快讯作者：赵云飞

英伟达研究团队近日推出开源框架Polar，为代码智能体训练领域带来突破性进展。该框架通过创新设计，使Codex、Claude Code、Qwen Code等主流代码智能体能够无缝接入GRPO（广义相对策略优化）训练体系，同时保持原有工具调用流程和上下文管理机制不变。

作为强化学习领域的优化方法，GRPO通过奖励信号动态调整模型策略，特别适用于需要多步决策的复杂任务。在代码智能体训练场景中，该技术能够显著提升模型在真实工具调用和代码补丁提交过程中的表现。研究团队指出，当前智能体强化学习正从单步任务向长流程任务转型，涉及代码仓库维护、浏览器自动化操作等复杂场景，这些任务高度依赖现有执行框架的多轮调用机制。

传统强化学习基础设施面临重大挑战——将智能体运行框架（如Codex CLI、Claude Code等）改写为标准环境接口（env.init/env.step/env.reset）不仅成本高昂，更会导致原生执行细节丢失。Polar框架通过革命性设计规避了这个问题：其在模型API边界处部署智能体，而非改造整个执行框架，从而完整保留了原有工具链的运行逻辑。

该框架的核心机制是在执行框架与推理服务器之间构建智能代理层，兼容Anthropic、OpenAI、Google等主流API风格。在请求转发过程中，系统会自动记录提示词、采样令牌、对数概率等关键数据，并将其重组为训练器可处理的轨迹信息。这种设计使得开发者无需修改现有工具链即可实现强化学习训练。

系统架构方面，Polar采用双组件设计：rollout server负责任务调度、会话管理和状态持久化，gateway node则掌控执行全生命周期，包括运行时初始化、框架配置、轨迹构建和资源回收。研究团队通过将初始化、运行和后处理流程拆分为独立工作池，并引入READY缓冲区机制，使运行时预热与评测预热可并行执行，有效减少了长尾任务对GPU训练的阻塞。

实验数据显示显著提升效果：以Qwen3.5-4B模型为基准，在四种代码执行框架上配合GRPO训练后，SWE-Bench Verified测试集的pass@1指标均有大幅提升。其中Codex框架表现最为突出，得分从3.8%跃升至26.4%，增幅达594.74%；其他框架提升幅度在14.4%至18.1%之间。效率优化方面，prefix_merging技术使训练步骤更新次数减少81.6%，墙钟时间缩短至原来的18%，GPU利用率从20.4%提升至87.7%。

更多>同类内容

中证红利ETF招商半月吸金18亿，低利率下高股息资产成投资新宠？

05-28

2026年平板硫化机公司新动向：技术创新、需求变革与服务升级齐发力

05-28

铜价高位运行！新能源汽车高压电磁扁线订单排至2027年下半年，市场供需两旺

05-28

段永平态度大转变：从“看不懂”到重仓，泡泡玛特持仓市值近120亿港元

05-28

大金重工2026年5月28日起招股拟全球发售8696.58万股H股

05-28

张杨果而商业版图多元拓展涉商务咨询餐饮管理等多领域成果初显

05-28

2026金融AI大跃迁：阿里云“点金”智能体开启金融业自主协作新纪元

05-28

瑞达期货2025年研发投入降29.36% 人员增至23人营收利润双增长

05-28

蚂蚁韩歆毅：AI经济时代商业本质未改，市场逻辑重塑下的新机遇与挑战

05-28

Solidigm迎新帅：郭炘与Richard Chin出任联席CEO，共绘AI存储新蓝图

05-28

AI支付时代来临：支付宝3亿笔交易背后你准备好让AI管钱包了吗？

05-28

张雪机车首款电摩有新进展：接近成功电机功率达50千瓦远超普通电驴

05-28

小米17T系列即将全球发布：时隔四年重返印度徕卡三摄+超长续航引期待

05-28

蚂蚁韩歆毅谈AI经济：商业本质稳固，市场逻辑重塑，支付基建迎新篇

但信任仍是商业交易的前提，只是信任主体、信任规则需要重新搭建，这也是智能体时代最大的新课题。如今，站在AI经济时代的门槛前，支付的位置变了，不止是一个付款动作、一个支付产品，而成为AI时代的“水电煤”，提供…

05-28

“韬定律”助力先进封装风口，华天科技3天涨30%，81倍PE还能追吗？

05-28

点击查看更多 +

全站最新

裕富照明IPO辅导收官，63岁董事长陆群夫妻携手，深耕照明产业近二十载

*ST利达完成换届：刘纯坚博士掌舵董事长顾佳任总经理开启新征程

Solidigm迎新篇：郭炘与Richard Chin出任联席CEO，共绘AI存储新蓝图

天源迪科午间公告：董事长陈友解除留置措施回归正常履职公司运营有序

AI Agent重塑客服新格局：2026年客服系统如何跨越“服务断点”迈向“价值起点”？

用AI解锁企业增长新路径：陪17位企业家定位200万级核心问题

热门内容

本栏最新

蚂蚁韩歆毅谈AI经济：商业本质稳固，市场逻辑重塑，支付基建迎新篇

雷军官宣小米MiMo大模型降价，优化计费机制，助力全域AI生态普及

快手财报解读：可灵AI商业化提速，AI漫剧与电商流量融合成效显著

上海交大博士刘剑领航 47岁董事长控股近六成睿触机器人冲刺港交所

华泰宝湾物流REIT公告：宝湾物流董事长吕峰因个人原因辞任

上海“校、企、行”携手，合力打造全域语智产教融合新平台育外语人才

发现者网 - 深度洞察行业动态引领市场先锋平台 - 发现商业评论旗下网站北京·通州天津·滨海山东·济南
发现者网（www.fxw.com.cn）所有稿件免费开放转载，转载请务必保留版权。
合作微信：netspread（注明:发现者网）
Copyright © FXW 2012-2023 www.fxw.com.cn All rights reserved. 鲁ICP备2022032383号-3 鲁公网安备37010202700500号