阿里通义千问团队近日宣布推出全球首个原生语言世界模型Qwen-AgentWorld,该模型通过模拟七大领域的智能体交互环境,在复杂任务处理能力上实现突破性进展。基于超过一千万条真实交互轨迹数据,模型采用CPT→SFT→RL三阶段训练架构,在全新发布的AgentWorldBench评测基准中超越GPT-5.4、Claude Opus 4.8等国际顶尖模型,成为智能体训练领域的重要里程碑。
该模型突破性地将环境建模融入训练全流程,形成原生世界建模范式。在CPT阶段通过交互轨迹学习环境知识,引入信息论损失掩码技术精准识别关键对话轮次;SFT阶段创新性地激活思维链推理模式进行状态预测;RL阶段则采用混合奖励信号优化输出质量。这种训练架构使模型在Web、OS、Android等GUI领域实现纯文本建模替代视觉渲染,通过可渲染代码直接呈现环境观测数据。
评测数据显示,3970亿参数版本的Qwen-AgentWorld在七大领域综合得分58.71,较GPT-5.4高出0.46分,尤其在Terminal和SWE领域展现显著优势。350亿参数版本通过三阶段训练实现8.66分的性能跃升,成功超越Claude Sonnet 4.6等同等规模模型。所有测试样本均配备真实环境执行的ground-truth数据,确保评测结果的可靠性。
研究团队提出两种互补的世界建模应用模式:作为解耦环境模拟器时,可为强化学习提供可控的虚拟训练场,其塑造智能体行为的能力远超真实环境训练;作为统一基础模型时,预热训练后的模型可直接迁移至多轮任务场景,无需额外微调即可保持优异性能。目前模型架构与评测基准已在Hugging Face和ModelScope平台开源,为全球研究者提供完整的技术框架与评估工具。











