发现商业评论 旗下
洞察商业 启迪未来

港大阿里联合打造FineVLA框架:让机器人精准执行人类细粒度语言指令

   时间:2026-06-26 15:57 来源:快讯作者:顾雨柔

在机器人技术领域,尽管现有模型已能根据“把杯子放进篮子”这类简单指令完成基础操作,但如何精准控制执行细节——比如用哪只手操作、从哪个角度抓取、抓取杯身还是杯柄——仍是待解难题。这类关键细节在现有机器人数据集中普遍缺乏标注,导致模型难以理解人类对执行过程的精细化要求。

针对这一痛点,香港大学XLANG Lab与阿里巴巴Qwen团队联合推出开源框架FineVLA,通过构建“数据-模型-评测-策略”完整闭环,首次实现机器人对自然语言中执行细节的精准响应。该框架不仅能让机器人完成任务,更能通过语言指令控制具体操作方式,在仿真与真实场景中均取得显著提升:RoboTwin仿真环境中成功率达86.8%/82.5%(较基线提升15.0/11.1个百分点),真实双臂机器人操作中关键指标提升12.8个百分点,在姿态控制、颜色识别、接近方向等维度均实现量化突破。

传统VLA(视觉-语言-动作)模型面临的核心矛盾在于语言监督粒度与动作控制需求的不匹配。以“拿起勺子”为例,现有数据集通常仅标注“成功拿起”这一目标级指令,却忽略左臂/右臂选择、障碍物规避路径等过程级细节。这种粗粒度标注导致模型虽能完成任务,却无法理解人类对执行方式的隐性要求。研究团队通过分析发现,超过80%的开源机器人数据集缺乏动作序列、接触区域等十项关键维度的标注,成为制约可控性提升的主要瓶颈。

FineVLA的技术突破始于数据层重构。研究团队开发的FineVLA-Tool工具链从10个开源数据集中整合97万条异构轨迹,通过动态时间规整算法去重后保留4.7万条代表性样本,并沿执行体、接触方式、轨迹方向等十维度进行细粒度标注。经人工审核验证,标注后指令的平均词数从9.3增至96.8,覆盖度提升10.4倍。这种结构化标注不仅消除了监督歧义,更为后续模型训练提供了高质量语料。

在模型层,研究团队对Qwen3.5-VL进行全参数微调,开发出专用标注器RoboFine-VLM。该模型能自动生成覆盖十控制维度的步骤级描述,在细粒度视频理解评测中,其VQA轨道准确率达68.2%,较通用基线GPT-5.4提升8个百分点;Caption轨道在hard模式下(无语言提示)仍保持82.2%的覆盖率,证明其具备从视觉信号中自主推断操作过程的能力。为确保评测客观性,团队构建的RoboFine-Bench包含500段测试视频与1.1万个原子事实,通过实体定位、动作理解、状态推理三轴评测,形成机器人视频理解的新标准。

策略层的创新体现在混合训练范式的设计。实验表明,单纯使用细粒度指令(FG-only)虽在特定场景下优于目标级指令(Raw-only),但最佳效果需两者结合。当FG:Raw指令比例为1:2至1:1时,模型在RoboTwin仿真中达到性能峰值,证明目标级指令提供任务框架、细粒度指令指导执行细节的互补机制。真实机器人实验进一步验证这一结论:在CobotMagic双臂平台上,混合训练使颜色识别准确率从22%提升至40%,姿态控制从24%提升至47%,接近方向成功率从60%增至78%,尤其在训练未覆盖的“左手操作右侧目标”等组合任务中,成功率从0提升至10%,显示因子级泛化能力的显著增强。

该框架的开源价值体现在四个可复用方向:提供从异构数据到细粒度标注的完整工具链、开发专用视频标注模型RoboFine-VLM、建立细粒度理解评测基准RoboFine-Bench、验证混合训练有效性的策略配方。研究团队强调,细粒度语言监督并非要替代目标级指令,而是通过补充执行细节信息,构建更符合人类交互习惯的机器人控制系统。这一范式转变或将推动机器人从“完成指令”向“理解意图”的质变发展。

 
 
更多>同类内容
全站最新
热门内容