英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架通过创新设计,使Codex、Claude Code、Qwen Code等主流代码智能体能够无缝接入GRPO(广义相对策略优化)训练体系,同时保持原有工具调用流程和上下文管理机制不变。
作为强化学习领域的优化方法,GRPO通过奖励信号动态调整模型策略,特别适用于需要多步决策的复杂任务。在代码智能体训练场景中,该技术能够显著提升模型在真实工具调用和代码补丁提交过程中的表现。研究团队指出,当前智能体强化学习正从单步任务向长流程任务转型,涉及代码仓库维护、浏览器自动化操作等复杂场景,这些任务高度依赖现有执行框架的多轮调用机制。
传统强化学习基础设施面临重大挑战——将智能体运行框架(如Codex CLI、Claude Code等)改写为标准环境接口(env.init/env.step/env.reset)不仅成本高昂,更会导致原生执行细节丢失。Polar框架通过革命性设计规避了这个问题:其在模型API边界处部署智能体,而非改造整个执行框架,从而完整保留了原有工具链的运行逻辑。
该框架的核心机制是在执行框架与推理服务器之间构建智能代理层,兼容Anthropic、OpenAI、Google等主流API风格。在请求转发过程中,系统会自动记录提示词、采样令牌、对数概率等关键数据,并将其重组为训练器可处理的轨迹信息。这种设计使得开发者无需修改现有工具链即可实现强化学习训练。
系统架构方面,Polar采用双组件设计:rollout server负责任务调度、会话管理和状态持久化,gateway node则掌控执行全生命周期,包括运行时初始化、框架配置、轨迹构建和资源回收。研究团队通过将初始化、运行和后处理流程拆分为独立工作池,并引入READY缓冲区机制,使运行时预热与评测预热可并行执行,有效减少了长尾任务对GPU训练的阻塞。
实验数据显示显著提升效果:以Qwen3.5-4B模型为基准,在四种代码执行框架上配合GRPO训练后,SWE-Bench Verified测试集的pass@1指标均有大幅提升。其中Codex框架表现最为突出,得分从3.8%跃升至26.4%,增幅达594.74%;其他框架提升幅度在14.4%至18.1%之间。效率优化方面,prefix_merging技术使训练步骤更新次数减少81.6%,墙钟时间缩短至原来的18%,GPU利用率从20.4%提升至87.7%。











