滚动资讯

当前位置：发现者网 > 3C数码 > 正文内容

港大阿里联合打造FineVLA框架：让机器人精准执行人类细粒度语言指令

时间：2026-06-26 15:57 来源：快讯作者：顾雨柔

在机器人技术领域，尽管现有模型已能根据“把杯子放进篮子”这类简单指令完成基础操作，但如何精准控制执行细节——比如用哪只手操作、从哪个角度抓取、抓取杯身还是杯柄——仍是待解难题。这类关键细节在现有机器人数据集中普遍缺乏标注，导致模型难以理解人类对执行过程的精细化要求。

针对这一痛点，香港大学XLANG Lab与阿里巴巴Qwen团队联合推出开源框架FineVLA，通过构建“数据-模型-评测-策略”完整闭环，首次实现机器人对自然语言中执行细节的精准响应。该框架不仅能让机器人完成任务，更能通过语言指令控制具体操作方式，在仿真与真实场景中均取得显著提升：RoboTwin仿真环境中成功率达86.8%/82.5%（较基线提升15.0/11.1个百分点），真实双臂机器人操作中关键指标提升12.8个百分点，在姿态控制、颜色识别、接近方向等维度均实现量化突破。

传统VLA（视觉-语言-动作）模型面临的核心矛盾在于语言监督粒度与动作控制需求的不匹配。以“拿起勺子”为例，现有数据集通常仅标注“成功拿起”这一目标级指令，却忽略左臂/右臂选择、障碍物规避路径等过程级细节。这种粗粒度标注导致模型虽能完成任务，却无法理解人类对执行方式的隐性要求。研究团队通过分析发现，超过80%的开源机器人数据集缺乏动作序列、接触区域等十项关键维度的标注，成为制约可控性提升的主要瓶颈。

FineVLA的技术突破始于数据层重构。研究团队开发的FineVLA-Tool工具链从10个开源数据集中整合97万条异构轨迹，通过动态时间规整算法去重后保留4.7万条代表性样本，并沿执行体、接触方式、轨迹方向等十维度进行细粒度标注。经人工审核验证，标注后指令的平均词数从9.3增至96.8，覆盖度提升10.4倍。这种结构化标注不仅消除了监督歧义，更为后续模型训练提供了高质量语料。

在模型层，研究团队对Qwen3.5-VL进行全参数微调，开发出专用标注器RoboFine-VLM。该模型能自动生成覆盖十控制维度的步骤级描述，在细粒度视频理解评测中，其VQA轨道准确率达68.2%，较通用基线GPT-5.4提升8个百分点；Caption轨道在hard模式下（无语言提示）仍保持82.2%的覆盖率，证明其具备从视觉信号中自主推断操作过程的能力。为确保评测客观性，团队构建的RoboFine-Bench包含500段测试视频与1.1万个原子事实，通过实体定位、动作理解、状态推理三轴评测，形成机器人视频理解的新标准。

策略层的创新体现在混合训练范式的设计。实验表明，单纯使用细粒度指令（FG-only）虽在特定场景下优于目标级指令（Raw-only），但最佳效果需两者结合。当FG:Raw指令比例为1:2至1:1时，模型在RoboTwin仿真中达到性能峰值，证明目标级指令提供任务框架、细粒度指令指导执行细节的互补机制。真实机器人实验进一步验证这一结论：在CobotMagic双臂平台上，混合训练使颜色识别准确率从22%提升至40%，姿态控制从24%提升至47%，接近方向成功率从60%增至78%，尤其在训练未覆盖的“左手操作右侧目标”等组合任务中，成功率从0提升至10%，显示因子级泛化能力的显著增强。

该框架的开源价值体现在四个可复用方向：提供从异构数据到细粒度标注的完整工具链、开发专用视频标注模型RoboFine-VLM、建立细粒度理解评测基准RoboFine-Bench、验证混合训练有效性的策略配方。研究团队强调，细粒度语言监督并非要替代目标级指令，而是通过补充执行细节信息，构建更符合人类交互习惯的机器人控制系统。这一范式转变或将推动机器人从“完成指令”向“理解意图”的质变发展。

更多>同类内容

具身智能机器人多楼层配送实测：导航、操作、交互谁能真正突破瓶颈？

但在多楼层自主配送场景中面临两个关键短板：一是无标配机械臂，第三方集成的操作能力在精度和可靠性上难以达到商用级标准；二是电梯对接方案依赖外挂模块，在多样化电梯协议适配方面的成熟度与普渡机器人存在差距。但在多楼…

06-26

爱思益普北交所IPO获受理：海归博士夫妻掌舵，创新药平台前景几何？

06-26

领益智造曾芳勤专访：AI时代下中国供应链的新机遇与增长蓝图

06-26

鹏城新能：研发副总监何爽年薪领跑董监高与董事长华科大校友且曾共事

06-26

五粮液新帅邓敏股东大会首秀：锚定“五个坚守” 引领高质量发展新征程

06-26

无界动力获超2亿美元天使轮融资独特技术赋能全球订单近1亿美元待交付

06-26

新华保险荣登《福布斯》全球企业2000强第378位，高质量发展再启新程

06-26

换个思路看对手：从竞争对手身上挖掘获客秘籍与差异化突破点

06-26

暑运出行报告：郑州铁路热度高，洛阳出境游升温，多地文旅联动成趋势

06-26

AI赋能通信产业：华为携手运营商以产品服务焕新驱动Token经营新增长

06-26

职院教师出身的徐振：掌控朗迅科技46%表决权年薪达353万元

招股书显示，朗迅科技成立于2010年5月，法定代表人为徐振，注册资本为4292.16万，是国家级专精特新重点“小巨人”企业，专注于第三方集成电路测试业务。IPO前，徐振直接持有公司22.35%股权；徐振担…

06-26

苹果全球涨价潮来袭，Mac、iPad齐涨iPhone独稳，库克葫芦里卖的什么药？

6月25日深夜，苹果官网短暂下线，再上线时，价格直接给你整懵了——MacBook、iPad全线涨价，最高涨幅接近20%，一台14英寸MacBook Pro直接涨了300美元，换算成人民币就是两千多块钱没了。…

06-26

马云活动不断：刚参与杭州插秧团建，又悄然现身美知名学府

马云在交流中表示，AI时代已经快速到来，对社会的冲击超出想象，我们大家谁都没有做好足够的准备，但是对十几岁的孩子来说，他们最有改变的希望和机会，所以这次来到云谷学校，目的就是把阿里巴巴最近对AI 越来越清…

06-26

大北农回应“被停贷限贷”传闻：目前经营与融资活动一切正常

06-26

OpenAI携手博通推首款定制AI芯片Jalapeño 2026年将规模化落地

目前OpenAI在芯片方面主要和英伟达合作，后者创始人黄仁勋6月初曾表示，OpenAI将率先在自有数据中心部署英伟达最新款芯片Vera系列中央处理器。 OpenAI联合创始人兼总裁布罗克曼当地时间5月5日表示…

06-26

点击查看更多 +

全站最新

德系混动新标杆！一汽-大众双PHEV上市，以五大标准重塑混动价值新高度

预售34.9万起！全新奔驰纯电GLC来袭，配置升级能否赢回市场信任？

鹏城新能何爽年薪156万领跑董监高与董事长王进同为华科大校友前同事

职院教师出身的徐振：掌控朗迅科技46%表决权年薪达353万元

苹果全球涨价潮来袭，Mac、iPad齐涨iPhone独稳，库克葫芦里卖的什么药？

马云活动不断：刚参与杭州插秧团建，又悄然现身美知名学府

热门内容

本栏最新

职院教师出身的徐振：掌控朗迅科技46%表决权年薪达353万元

苹果全球涨价潮来袭，Mac、iPad齐涨iPhone独稳，库克葫芦里卖的什么药？

马云活动不断：刚参与杭州插秧团建，又悄然现身美知名学府

马斯克个人总资产两周内从万亿跌落科技股下跌与解禁潮成主因

新能源汽车补能网络升级：私人桩崛起，行业迈向精细化运营新阶段

追觅俞浩的“乔布斯计划”：培养全员精英，高端全球化布局显成效

发现者网 - 深度洞察行业动态引领市场先锋平台 - 发现商业评论旗下网站北京·通州天津·滨海山东·济南
发现者网（www.fxw.com.cn）所有稿件免费开放转载，转载请务必保留版权。
合作微信：netspread（注明:发现者网）
Copyright © FXW 2012-2023 www.fxw.com.cn All rights reserved. 鲁ICP备2022032383号-3 鲁公网安备37010202700500号