在机器人技术领域,精细操作能力一直是制约其广泛应用的关键瓶颈。传统方法需要耗费大量计算资源对机器人主模型进行全面训练,不仅耗时漫长,且难以应对工厂环境中对精准度、灵活性和速度的严苛要求。如今,具身智能领域传来突破性进展:Physical Intelligence团队开发的RL token技术,使机器人仅需十几分钟至数小时的真实世界操作经验,即可掌握插网线、拧微型螺丝等高精度任务。
该技术的核心创新在于突破传统训练范式。研究团队没有选择对机器人主模型进行整体微调,而是为其添加了一个专门处理精细动作的"外挂模块"——RL token。这一设计使机器人进化速度提升三倍,在特定任务中的操作速度甚至超越人类远程操控水平。以拧螺丝任务为例,机器人需在10厘米长的螺丝刀上实现亚毫米级定位精度,传统方法因手腕微小偏差导致刀尖误差放大的难题被成功攻克。
技术实现路径包含两大关键突破:首先是VLA模型改造,通过编码器-解码器结构生成包含关键信息的RL token,将复杂观察数据压缩为极简摘要;其次是轻量化强化学习系统,由Actor网络输出动作、Critic网络评估效果,采用节省数据的off-policy训练方法。这两个神经网络可直接部署在机器人本体,实现每秒数百次的实时更新,确保每次试错后立即优化行为策略。
研究团队设计了四项极具挑战性的测试任务:用电动螺丝刀安装M3微型螺丝、系紧扎带、插入网线及电源线。这些任务的成功关键在于最后数毫米的接触精度,传统基础模型虽能完成前期动作,但在关键阶段常因角度偏差或时机失误导致失败。RL token技术通过针对性强化学习,仅用15分钟真实数据即可优化这些"硬骨头"环节。在插网线任务中,机器人经过2小时训练(含15分钟操作数据)后,不仅成功率显著提升,半数操作速度更超越人类示范。
该技术的突破性在于建立了一套通用训练框架:通过预测动作块保持与VLA模型的动作一致性,采用"修改而非推翻"的策略优化现有动作,引入参考动作dropout机制防止模型惰性,并支持人类干预反馈。这些设计使在线强化学习成为可复用的解决方案,无需针对不同任务重新设计,即可直接应用于各类精密操作场景。










