连续两年站上ICRA,RoboScience机器科学要把具身智能带到VLOA时代

Dabaoo2026-06-052614机器人技术及应用



 

“开辟具身智能VLOA新路线。

机器人行业正在出现一次路线切换。

过去两年,VLA 几乎成为具身智能领域最热门的技术路线。它将视觉观测、语言指令和机器人动作连接起来,让机器人能够根据当前环境和任务要求生成动作。

但真实世界不是一张静态画面。

当机器人真正走进工厂、商超、仓库和家庭,面对的是一个持续变化的物理环境。机器人真正的难题,也正在从“能不能生成动作”,转向“能不能预判动作之后,物体会如何变化”。

这也是RoboScience机器科学试图推动的一次技术范式升级。



 

这家成立于2024年底的具身智能公司,正在把行业熟悉的VLA推向VLOA,即 Vision-Language-Object-Action。相比直接从视觉观测和语言指令生成动作,VLOA 试图进一步加入对物体变化和物理轨迹的预演。

更关键的是,这条路线并不是停留在概念上。围绕机器人操作泛化,RoboScience机器科学已经形成了一系列底层研究积累。

2025年,RoboScience机器科学首席科学家邵林团队凭借 D(R,O) Grasp 斩获 ICRA机器人操作与运动最佳论文奖。2026 年,团队又凭 Bi-Adapt 入围同方向最佳论文奖提名。据了解,这是近五年,亚洲唯一连续两年获得机器人领域全球顶会ICRA认可的团队。

01.

顶会背书,押在机器人最难的“操作”

机器人真正走向产业,最难的不是识别物体,也不是接收一句自然语言指令,而是把动作稳定地做出来。

“操作”意味着机器人必须面对真实物理世界里的接触、摩擦、遮挡、力控、形变和双臂协同。任何一个细微变化,都可能让原本顺畅的任务执行突然失败。

RoboScience机器科学连续两年的ICRA 成果,恰好都落在操作泛化这一环。

2025年获奖的 D(R,O) Grasp,解决的是不同灵巧手之间的抓取泛化问题。



 

传统机器人抓取往往遵循“一只手、一套模型、一套策略”的逻辑。换一只机械手,很多能力就要重新训练。这在实验室里或许可以接受,但一旦进入产业现场,就会变成巨大的部署成本。

真实场景里的机器人本体、机械臂、夹爪和灵巧手并不统一。如果每更换一种硬件,都要重新采集数据、重新训练模型、重新调试动作,具身智能就很难实现规模化复制。

D(R,O) Grasp 的思路,是建立机器人手与物体交互的统一表示,让一个模型能够适配多种不同形态的灵巧手,突破传统“一机一策”的限制。



 



 

今年入围 ICRA最佳论文奖提名的Bi-Adapt,则把问题进一步推进到双臂操作。

相比单臂抓取,双臂协作更接近真实场景。搬运、装配、折叠、整理、包装、拼家具,往往都需要两只机械臂互相配合。一只手负责固定,另一只手负责插入;一只手调整姿态,另一只手施加力度。两只手既要分工,也要根据物体变化动态协同。



 



 

但现有双臂操作方法往往依赖昂贵的数据采集和训练,一旦换到新类别物体,就容易失效。Bi-Adapt 通过语义对应实现双臂操作的高效泛化。利用视觉基础模型的能力,它可以通过有限数据适配新类别物体,并进一步泛化到此前未见过的物体类别。

它回答的是另一个关键问题:机器人操作能力能不能跨物体、跨类别、跨任务迁移?

两项研究看似一个聚焦灵巧抓取,一个聚焦双臂协作,但背后指向的是同一个问题:机器人如何摆脱“一机一策、一物一训、一场景一调”的旧模式?这也正是RoboScience机器科学提出VLOA的技术背景。



 

在ICRA 2026论文录用结果中,邵林带领的团队共有10篇研究成果成功入选。这些论文聚焦具身大模型、灵巧抓取、社交导航、低成本力感知与混合任务规划等核心方向,系统性地推进了具身智能的技术边界。

02.

VLA 解决“看懂”,VLOA 补上“预判”和执行

VLA的核心,是将视觉观测、语言指令和机器人动作统一到一个模型中,根据当前环境和任务要求生成动作。

但纯VLA 仍然存在明显边界。它缺乏对环境未来状态的预测能力。在相对静态、规则化的场景中,这套逻辑更容易发挥作用。但进入动态场景后,问题就会迅速暴露。

机器人抓起一个物体,却无法预判它下一秒会不会滑落;插入一个零件,也难以判断接触力变化是否会导致卡住;面对柔性材料,物体形态还会随着动作持续改变。

模型看似输出了动作,但这个动作未必符合真实物理规律。这就是动态场景中的“动作幻觉”。

RoboScience机器科学提出的VLOA,不是简单在 VLA 上增加一个字母,而是创新性地构建了具身世界模型与通用操作模型的双引擎架构。其中,Object Trajectory 作为中间接口,以物体连续的 3D 点云轨迹进行表征。



 

第一层是具身世界模型。围绕具身操作所需的物体级状态、三维轨迹、接触关系和物理因果变化构建,并与执行层(通用操作模型)形成统一闭环。它围绕物体状态、三维轨迹、接触关系和物理因果变化,预演物体未来的连续 3D 点云轨迹。

第二层是通用操作模型。通过「物理引擎-仿真数据-端到端训练」的高效闭环,解决泛化性与灵巧操作难题

家具拼装,是这套架构的一个直观案例。据介绍,基于VLOA大模型,RoboScience机器科学于2025年5月完成全球范围内最复杂、精度最高、步骤最多的具身操作任务——机器人自主完成家具拼装。任务涵盖双臂协同、精准力控、物体重排、部件嵌入和插入等操作,对精度的要求达到毫米级。

模型读取说明书后即可启动拼装,自主识别零件结构,完成插拔、旋转和配合。即使拼装过程中受到人为拆解干扰,也能够恢复状态,接续完成后续步骤。

这一过程,正是具身世界模型“预演轨迹”与通用操作模型“精准执行”的协同体现。

Object Trajectory 的意义,也不只是连接上下两层模型。RoboScience机器科学试图把它定义为具身智能的标准数据格式。

语言大模型有 Token,自动驾驶有图像、BEV 和轨迹等数据接口,但具身智能长期缺少统一表达。不同机器人结构不同,不同物体形态不同,不同任务目标也不同。数据难以规模化复用,模型能力也很难跨本体、跨物体、跨任务迁移。

Object Trajectory 将复杂操作抽象为物体在空间中的运动轨迹和状态变化,为具身智能规模化训练提供了一种统一接口。

03.

从仿真引擎到B端场景,搭建具身智能全栈链路

具身智能走向产业,单有模型还不够。模型能力能否持续提升,取决于高质量操作数据能不能规模化获得;技术能否真正落地,则要看机器人能不能进入真实任务,降低部署成本。

RoboScience 机器科学的思路,是围绕 VLOA 同步布局仿真引擎、机器人本体和商业场景,搭建一条从模型训练到任务落地的完整链路。

在上层具身世界模型中,机器科学通过全自动标注和清洗 pipeline,从互联网视频中提取以物体为中心的高维多模态操作数据。相比依赖有限数量的真机采集,互联网视频可以覆盖更多物体、更多动作和更多交互方式,帮助模型学习物体状态、三维轨迹、接触关系和物理因果变化。



 



 



 



 

但视频解决的是覆盖面。机器人真正执行任务,还需要掌握更准确的物理规律。

为此,RoboScience机器科学自研高精度通用物理仿真平台 RoboMirage,通过“物理引擎—仿真数据—端到端训练”的闭环,为通用操作模型规模化生成操作轨迹。

具身智能需要的仿真,不只是画面逼真,更重要的是物理过程足够准确。刚体、铰链体、绳索、布料和橡皮筋,需要在同一框架中处理;高速摩擦、柔性形变、刚柔耦合和复杂接触,也要尽可能符合真实规律。

RoboScience机器科学展示的一组“魔术场景”,直观体现了这套引擎的能力。细绳、金属环、橡皮筋和纸牌,在仿真环境中完成滑落、悬停、交错、穿越和叠放。看似简单的动作,背后涉及摩擦滑动、拓扑变化、弹性形变和精细接触。



 

模型和仿真之外,RoboScience机器科学也在同步推进机器人本体、末端执行器和商业场景部署。

目前,公司已在商超、前置仓电商物流等场景进行 POC 测试。从公司规划看,RoboScience机器科学将优先切入商超、前置仓、电商物流、工业和零售等 B 端场景,远期再逐步拓展至家庭等 C 端场景。

可见,RoboScience机器科学的逻辑不是单点突破,而是搭建一条完整链路:VLOA 定义模型架构,高效利用海量“仿真+视频”数据进行训练转动飞轮,机器人本体进入真实场景完成验证。

04.

VLOA 背后,“斯坦福学术+硅谷工程”的团队组合

VLOA是一条复杂的技术路线。它不只需要模型能力,还需要仿真、硬件和产业落地协同推进。RoboScience机器科学的团队配置,正是围绕这条链路搭建。

首席科学家邵林长期研究机器人操作、灵巧抓取、跨本体泛化和世界建模。他本科毕业于南京大学,博士毕业于斯坦福大学,师从 Jeannette Bohg,联合导师为 Leonidas J. Guibas。与银河通用创始人王鹤、Hillbot创始人苏昊、穹彻智能创始人卢策吾等人一样,成长于斯坦福机器人研究体系。

创始人田野则补上了工程化能力。他本科毕业于中国科学技术大学,硕士就读于斯坦福 AI Lab,师从吴恩达,曾担任苹果 AI Platform技术负责人,参与 AI 底层平台和端侧智能系统建设。这对应的是另一道关键问题——前沿AI 技术如何从论文走向稳定、可部署、可规模化的系统。

具身智能不是纯软件行业。模型之外,还涉及机器人本体、末端执行器、供应链、交付、运维和长期场景迭代。

因此,RoboScience机器科学团队中还吸纳了机器人产品量产、供应链管理和前沿科技投资背景的人才,试图补齐从实验室到产业现场的完整链条。


邵林(左)与田野(右)
 

 

目前,公司已经披露完成多轮融资,投资方包括京东集团、商汤科技、达晨财智、招商局创投、零一创投、普华资本等多家 CVC 和财务机构。近期又获得了多家国内外产业龙头、互联网大厂、头部财务机构等的多轮注资。

05.

真正的考验,是把泛化变成生产力

连续两年 ICRA顶会背书,为RoboScience机器科学提供了一个强势开场。但论文证明的是技术上限,商业化考验的是稳定性、成本、交付、运维和客户 ROI。

接下来,它还要证明另一件事:VLOA 能不能在真实场景里稳定运行。

跨机器人、跨物体、跨任务泛化,是 VLOA 的核心价值。但进入商超、仓库和工厂后,机器人面对的是长尾物体、现场干扰、复杂接触和持续运行压力。能不能降低部署成本,能不能从POC 走向规模采购,才是商业化真正的分水岭。

RoboScience机器科学已经搭起了从 VLOA、RoboMirage 到本体部署的技术链路。下一步,是验证这套链路能否在 B 端场景中规模化复制,跑出真正的商业闭环。

如果这一步能够跑通,RoboScience机器科学要做的就不只是一款机器人本体,也不只是一个操作模型,而是一套通用操作底座。

具身智能下一阶段真正比拼的,不是谁的Demo更复杂,而是谁能把泛化能力变成稳定生产力。