在国际顶级机器人学术期刊《Science Robotics》上,一项关于机器人空间智能的研究成果引发了广泛关注。这项名为“A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation”的研究,由浙江人形机器人创新中心联合香港中文大学、浙江大学等多家高校与科研机构共同完成,提出了一种名为RAM(Retrieval-Augmented Manipulation)的三维空间理解与操作模型,为机器人复杂任务操作提供了新的技术路径。
当前,以视觉语言大模型(VLM)为代表的AI技术正逐步提升机器人理解自然语言指令和分解复杂任务的能力。然而,从“听懂指令”到“完成动作”之间,机器人仍需跨越一道关键障碍:如何在三维空间中准确理解物体的位置、朝向、尺度、可操作区域及其相互关系,并将这些信息转化为可执行的运动约束。这一挑战成为制约机器人技术进一步发展的瓶颈。
针对这一难题,研究团队提出的RAM模型借鉴了检索增强生成(RAG)的思想,为大模型配备了一个可查询的外部三维知识库。在执行任务时,机器人可以根据需要检索物体类别、几何属性、功能平面、抓取点等空间先验信息,从而弥补视觉语言模型在三维空间理解方面的不足。与将知识隐含在模型参数中的传统方法不同,RAM的空间知识更加显式、可解释,且便于扩展。
为了验证RAM模型的有效性,研究团队构建了一个面向机器人操作场景的空间理解问答评测集。该评测集从相对位置、旋转方向、操作可行性、任务规划和尺寸估计等多个维度评估模型的空间认知能力。实验结果显示,在评测集覆盖的多类空间推理任务中,RAM模型的整体表现优于多种代表性视觉语言大模型。RAM还展现出一定的通用性和扩展性,能够适应不同场景下的任务需求。
据相关负责人介绍,人形机器人要走向真实应用场景,不仅需要具备强大的硬件本体、灵巧手和运动控制能力,还需要拥有理解三维环境、判断物理约束并规划可执行动作的算法能力。这项空间智能技术的研究,为人形机器人未来在复杂应用场景中的落地提供了有力支撑。
目前,浙江人形机器人创新中心正围绕平台建设与场景需求,持续关注三维感知、任务规划、灵巧操作和具身智能等关键能力的融合发展。团队致力于推动相关技术在工业制造、家庭服务、智能康养等颇具挑战性的场景中的探索验证与逐步落地,为机器人技术的广泛应用奠定坚实基础。
“我们将继续推动前沿研究与工程实践之间的衔接,围绕机器人空间认知、长程任务规划和自主决策等方向开展深入探索。”该负责人表示,“通过不断优化算法模型和技术架构,我们期待人形机器人能够在更复杂、更真实的环境中实现可靠操作与智能协作。”










