想象一下,如果机器人也能像我们一样,通过刷视频就能学习各种操作技能——比如从抖音上的叠衣服技巧学会整理衣物,从B站的收纳教程学会归置物品——那会是什么样子?
听起来很科幻?但在本月公布的CoRL 2025论文收录名单中,一篇来自南方科技大学CLEAR Lab、逐际动力和香港大学的联合研究,正在把这个设想变成现实。

收录地址:https://www.corl.org/program
Conference on Robot Learning (CoRL)可不是一般的学术会议。作为机器人学习领域的顶级学术会议,自2017年创办以来,CoRL始终引领着机器人学习的技术前沿。今年CoRL 2025关注操作与模仿学习、感知、规划与安全、运动控制、人形与硬件等大热核心主题,竞争之激烈可想而知。
在这样的背景下,南方科技大学CLEAR Lab联合逐际动力、香港大学的论文《Generative Visual Foresight Meets Task-Agnostic Pose Estimation in Robotic Table-top Manipulation》能够成功入选,是因为它提出了一种巧妙的机器人训练范式:让机器人通过视频来预测任务执行过程,进而学会自主操作。这也是逐际动力在利用视频数据进行具身智能训练的又一突破,有望加速机器人自主操作能力的发展。

[图:机器人通过观察人类来学习]
▍GVF-TAPE:让机器人先"看懂"再操作的新范式
在具身智能训练的数据金字塔中,视频数据是最大的变量。为什么这么说?因为互联网上有海量的人类操作视频——从美食教程到手工DIY,从工业装配到日常家务,这些视频本质上都是宝贵的"教学资源"。
问题是,如何让机器人真正"看懂"这些视频并转化为自己的技能?
传统方法就像让机器人死记硬背——工程师需要针对特定场景、特定操作任务进行手把手示教,告诉机器人每个动作的精确参数。这种方式下的人力、时间成本高昂,且无法应对环境的变化,导致部署和泛化的效率低下。
论文中所介绍的GVF-TAPE(Generative Visual Foresight with Task-Agnostic Pose Estimation)算法,核心创新在于将生成式视觉预测和与任务解耦的姿态估计相结合,简单来说,就是让机器人通过看视频学习操作,像人类一样先在脑海里"演练"一遍完成任务的整个过程:
1.先从视频学习一遍:机器人“看”同类的操作视频,学习操作动作
2.准确预测完成任务的画面:通过视频生成模型,预测出自己完成任务时的RGB-D视频,既有颜色信息,更重要的是还有深度信息。
3.再根据想象的画面推理动作:从生成的视频中提取末端执行器的姿态信息
4.最后执行具体操作:通过低层控制器将姿态转化为可执行的运动指令

[图.方法框图概览]
▍三项突破,让机器人更快学会操作
突破一:无需深度相机即可生成RGB-D视频
传统方法生成的只是2D RGB视频,没有空间信息,机器人无法在三维空间准确执行操作。而GVF-TAPE的突破在于,仅凭RGB图像就能生成RGB-D视频——既有颜色信息,也有深度信息,不需要再借助额外的深度相机来植入空间信息。

[图. 生成RGB-D操作视频,第一行代表RGB图,第二行代表对应的深度图。]
这就像给机器人装上了"立体视觉",让它能更准确地判断物体在三维空间中的位置。在仿真实验中,加入深度信息后,任务成功率平均提升了6.78%。更重要的是,不需要深度相机后,对于数据采集工具要求进一步降低,成本下降的同时效率也大幅提高。
突破二:与具体任务解耦的机器人姿态预测
让人眼前一亮的是GVF-TAPE的训练方式。不同于传统的手把手示教,它采用了"机器人随机探索"训练模式,机器人随机运动,就能获得对场景泛化有价值的数据:
机器人在环境中随意运动,利用内置的本体感知系统记录当前场景下机器人位姿(位置和姿态)。这些看似毫无章法的动作,实际上是在构建一个庞大的"场景-位姿"对应关系数据库,让算法对场景“免疫”,在任何场景都能识别机器人的位姿。
这种方法的巧妙之处在于:
动作与任务完全解耦,同一份数据可以用于训练各种不同任务,提高了数据复用率
数据采集完全自动化,不需要任何人工标注,大幅减少了人力成本,也加速了数据库的积累与迭代速度
可扩展性极强,数据库越大,泛化能力越强,模型将在更多任务中有更稳健的表现
通过这种自主探索方式,机器人建立了丰富的位姿数据库。面对新场景、新任务时,它能够调用相关经验,快速排除场景噪音,生成最优控制轨迹,真正实现了"一次训练,多任务、多场景应用"。
突破三:实时响应的视频生成速度
以往基于扩散模型(Diffusion Model)的视频生成方法,就像传统胶片相机的冲印过程——需要经过显影、定影等多个步骤才能得到清晰照片,往往要花好几秒甚至十几秒才能生成一段动作视频。
而GVF-TAPE采用了"流匹配"(Flow Matching)技术,就像数码相机的即拍即得——虽然两者都是通过降噪来生成清晰图像,但Flow Matching能用更少的步骤达到同样甚至更好的效果,将单个动作的预测时间缩短到0.6秒。

[图. 生成质量对比]
从图中可以看到,左侧图表显示的是视频生成误差——流匹配(红线)在相同步数下,误差值大大小于扩散模型(蓝线)。右侧图表展示的是生成视频的图像质量,流匹配仅用前三步就达到了大大高于扩散模型的质量。这种速度提升,让机器人能够在不同场景下快速、准确地执行操作,真正实现了实时闭环控制。
▍实验验证:更高的效率和成功率
为了验证这种"先预测再操作"方法的有效性,研究团队在仿真和真实环境中都进行了大量测试。
仿真环境表现
在LIBERO基准测试中,GVF-TAPE与多个最先进的方法进行了对比。结果显示:

[图. 仿真试验结果]
在LIBERO-Spatial和LIBERO-Object测试中,GVF-TAPE分别取得了95.5%和86.7%的成功率
整体平均成功率达到83%,比第二名高出11.56%
最关键的是,其他方法都需要20%的动作标注数据,而GVF-TAPE完全不需要
实机部署验证
在真实环境中,研究团队测试了7个不同难度的任务,包括刚体、柔体和铰接物体操作等。具体包括把碗放进微波炉并关门、抓取纸巾、折叠衣服、把抹布扔进垃圾桶等。
从简单抓取到复杂的开合操作,从刚性到柔性物体,GVF-TAPE在不同场景和操作变化下都展现出了强大的适应性。特别值得一提的是,在引入人类操作视频进行预训练后,成功率从56%飙升至86%。
▍基于生成视频数据的自主操作探索再升级
作为该成果的研究团队成员之一,逐际动力一直在探索"多元数据配方"策略——通过整合不同模态、不同来源的数据,让机器人更高效地学习操作技能。在视频数据驱动的机器人训练这一方向上,他们取得了多项突破。
今年年初,逐际动力推出的LimX VGM(VideoGenMotion)算法,首次实现了将人类操作视频实现机器人操作。而这次的GVF-TAPE,进一步优化了这一技术栈:
从分钟级延迟到亚秒级响应,实现了实时视频生成
从依赖深度相机到纯视觉生成,增强了空间感知能力
以本体随机探索替代人类示教,大幅降低了数据采集成本
这种持续的技术迭代,正在让视频数据成为机器人学习的"通用教材",推动着具身智能向更实用、更高效的方向发展。
试想一下,未来的场景:工厂里的机器人,通过学习大量操作视频就能快速上岗;家里的服务机器人,参考网上的教程视频不断学习新技能;医院的手术机器人,通过观摩手术录像持续提升操作水平。
这种让机器人通过视频学习的能力,或许正是具身智能真正走向大规模应用的关键一步。
毕竟,谁不想身边有一个通过视频就学会干活的机器人助手呢?