在近日举办的GTC具身智能论坛上,特斯拉、Physical Intelligence(PI)、Agility Robotics、Skild AI及Hexagon等企业的技术领袖齐聚,围绕自动驾驶数据迁移、仿真与现实差距跨越等核心议题展开深度探讨。与会者提出,尽管人形机器人与自动驾驶在数据需求上存在共性,但技术路径的差异与场景复杂度仍构成关键挑战。
特斯拉AI软件副总裁Ashok Elluswamy指出,自动驾驶数据迁移至人形机器人需精准筛选。他以特斯拉车队为例,强调并非所有数据价值均等——专业司机的驾驶数据比赛车手数据更具实用性。这一逻辑同样适用于机器人:特斯拉工厂中数十万员工执行的物理任务,为人形机器人Optimus提供了关键学习样本。通过摄像头采集的互联网视频虽数据量庞大,但如何筛选有效信息、评估其对任务目标的贡献,成为技术落地的核心问题。
Agility Robotics CTO Pras Velagapudi提出“数据金字塔”模型,将数据按采集难度与价值分层:顶层为遥操作机器人数据,底层为通用视频。他强调,顶层数据虽精准但稀缺,需结合下层数据预训练模型。例如,在与客户合作时,团队通过分层利用数据,既用顶层数据完成核心任务,又借助底层数据提升模型泛化能力。然而,合规与监管限制(如部分区域禁止部署监控系统)导致运营数据采集面临挑战,部分场景仅能获取部分观测数据。
Physical Intelligence联合创始人Chelsea Finn则从跨形态数据利用角度提出新思路。她发现,当模型训练数据覆盖多种机器人形态时,反而能更高效迁移人类视频中的信息。例如,网络视频中的人类动作数据,结合轮式、四足等机器人数据训练的模型,在泛化能力上优于仅使用人形机器人数据的模型。这一发现挑战了“形态越接近人类、迁移效果越好”的直觉,为数据利用提供了新方向。
在机器人架构设计上,分层模型成为共识,但具体实现路径各异。Agility Robotics的Digit机器人采用任务层、技能层、控制层分层架构,控制层由RL驱动,通过域随机化技术应对环境变化(如不同摩擦系数的地面)。Physical Intelligence则将分层架构与单一模型结合,上层负责抽象规划(如语言指令理解),下层执行具体动作,实现15分钟多步骤任务(如泡咖啡)。特斯拉的方案更强调端到端统一性:所有层级在同一模型内运行,共享信息以降低决策延迟,适应人形机器人对实时性的高要求。
Hexagon Robotics则探索多模型编排,通过“机器人提示工程”整合感知、规划、控制模块。Arnaud Robert比喻道,这类似于为ChatGPT设计提示词,但需额外注入环境信息(如产线变化)。团队还构建了高精度与快速移动的混合模型架构,根据任务需求动态切换,解决单一模型在精度与速度上的矛盾。












