连续两年站上ICRA，RoboScience机器科学要把具身智能带到VLOA时代

Dabaoo2026-06-052803机器人技术及应用

“开辟具身智能VLOA新路线。

机器人行业正在出现一次路线切换。

过去两年，VLA 几乎成为具身智能领域最热门的技术路线。它将视觉观测、语言指令和机器人动作连接起来，让机器人能够根据当前环境和任务要求生成动作。

但真实世界不是一张静态画面。

当机器人真正走进工厂、商超、仓库和家庭，面对的是一个持续变化的物理环境。机器人真正的难题，也正在从“能不能生成动作”，转向“能不能预判动作之后，物体会如何变化”。

这也是RoboScience机器科学试图推动的一次技术范式升级。

这家成立于2024年底的具身智能公司，正在把行业熟悉的VLA推向VLOA，即 Vision-Language-Object-Action。相比直接从视觉观测和语言指令生成动作，VLOA 试图进一步加入对物体变化和物理轨迹的预演。

更关键的是，这条路线并不是停留在概念上。围绕机器人操作泛化，RoboScience机器科学已经形成了一系列底层研究积累。

2025年，RoboScience机器科学首席科学家邵林团队凭借 D(R,O) Grasp 斩获 ICRA机器人操作与运动最佳论文奖。2026 年，团队又凭 Bi-Adapt 入围同方向最佳论文奖提名。据了解，这是近五年，亚洲唯一连续两年获得机器人领域全球顶会ICRA认可的团队。

01.

顶会背书，押在机器人最难的“操作”

机器人真正走向产业，最难的不是识别物体，也不是接收一句自然语言指令，而是把动作稳定地做出来。

“操作”意味着机器人必须面对真实物理世界里的接触、摩擦、遮挡、力控、形变和双臂协同。任何一个细微变化，都可能让原本顺畅的任务执行突然失败。

RoboScience机器科学连续两年的ICRA 成果，恰好都落在操作泛化这一环。

2025年获奖的 D(R,O) Grasp，解决的是不同灵巧手之间的抓取泛化问题。

传统机器人抓取往往遵循“一只手、一套模型、一套策略”的逻辑。换一只机械手，很多能力就要重新训练。这在实验室里或许可以接受，但一旦进入产业现场，就会变成巨大的部署成本。

真实场景里的机器人本体、机械臂、夹爪和灵巧手并不统一。如果每更换一种硬件，都要重新采集数据、重新训练模型、重新调试动作，具身智能就很难实现规模化复制。

D(R,O) Grasp 的思路，是建立机器人手与物体交互的统一表示，让一个模型能够适配多种不同形态的灵巧手，突破传统“一机一策”的限制。

今年入围 ICRA最佳论文奖提名的Bi-Adapt，则把问题进一步推进到双臂操作。

相比单臂抓取，双臂协作更接近真实场景。搬运、装配、折叠、整理、包装、拼家具，往往都需要两只机械臂互相配合。一只手负责固定，另一只手负责插入；一只手调整姿态，另一只手施加力度。两只手既要分工，也要根据物体变化动态协同。

但现有双臂操作方法往往依赖昂贵的数据采集和训练，一旦换到新类别物体，就容易失效。Bi-Adapt 通过语义对应实现双臂操作的高效泛化。利用视觉基础模型的能力，它可以通过有限数据适配新类别物体，并进一步泛化到此前未见过的物体类别。

它回答的是另一个关键问题：机器人操作能力能不能跨物体、跨类别、跨任务迁移？

两项研究看似一个聚焦灵巧抓取，一个聚焦双臂协作，但背后指向的是同一个问题：机器人如何摆脱“一机一策、一物一训、一场景一调”的旧模式？这也正是RoboScience机器科学提出VLOA的技术背景。

在ICRA 2026论文录用结果中，邵林带领的团队共有10篇研究成果成功入选。这些论文聚焦具身大模型、灵巧抓取、社交导航、低成本力感知与混合任务规划等核心方向，系统性地推进了具身智能的技术边界。

02.

VLA 解决“看懂”，VLOA 补上“预判”和执行

VLA的核心，是将视觉观测、语言指令和机器人动作统一到一个模型中，根据当前环境和任务要求生成动作。

但纯VLA 仍然存在明显边界。它缺乏对环境未来状态的预测能力。在相对静态、规则化的场景中，这套逻辑更容易发挥作用。但进入动态场景后，问题就会迅速暴露。

机器人抓起一个物体，却无法预判它下一秒会不会滑落；插入一个零件，也难以判断接触力变化是否会导致卡住；面对柔性材料，物体形态还会随着动作持续改变。

模型看似输出了动作，但这个动作未必符合真实物理规律。这就是动态场景中的“动作幻觉”。

RoboScience机器科学提出的VLOA，不是简单在 VLA 上增加一个字母，而是创新性地构建了具身世界模型与通用操作模型的双引擎架构。其中，Object Trajectory 作为中间接口，以物体连续的 3D 点云轨迹进行表征。

第一层是具身世界模型。围绕具身操作所需的物体级状态、三维轨迹、接触关系和物理因果变化构建，并与执行层（通用操作模型）形成统一闭环。它围绕物体状态、三维轨迹、接触关系和物理因果变化，预演物体未来的连续 3D 点云轨迹。

第二层是通用操作模型。通过「物理引擎-仿真数据-端到端训练」的高效闭环，解决泛化性与灵巧操作难题

家具拼装，是这套架构的一个直观案例。据介绍，基于VLOA大模型，RoboScience机器科学于2025年5月完成全球范围内最复杂、精度最高、步骤最多的具身操作任务——机器人自主完成家具拼装。任务涵盖双臂协同、精准力控、物体重排、部件嵌入和插入等操作，对精度的要求达到毫米级。

模型读取说明书后即可启动拼装，自主识别零件结构，完成插拔、旋转和配合。即使拼装过程中受到人为拆解干扰，也能够恢复状态，接续完成后续步骤。

这一过程，正是具身世界模型“预演轨迹”与通用操作模型“精准执行”的协同体现。

Object Trajectory 的意义，也不只是连接上下两层模型。RoboScience机器科学试图把它定义为具身智能的标准数据格式。

语言大模型有 Token，自动驾驶有图像、BEV 和轨迹等数据接口，但具身智能长期缺少统一表达。不同机器人结构不同，不同物体形态不同，不同任务目标也不同。数据难以规模化复用，模型能力也很难跨本体、跨物体、跨任务迁移。

Object Trajectory 将复杂操作抽象为物体在空间中的运动轨迹和状态变化，为具身智能规模化训练提供了一种统一接口。

03.

从仿真引擎到B端场景，搭建具身智能全栈链路

具身智能走向产业，单有模型还不够。模型能力能否持续提升，取决于高质量操作数据能不能规模化获得；技术能否真正落地，则要看机器人能不能进入真实任务，降低部署成本。

RoboScience 机器科学的思路，是围绕 VLOA 同步布局仿真引擎、机器人本体和商业场景，搭建一条从模型训练到任务落地的完整链路。

在上层具身世界模型中，机器科学通过全自动标注和清洗 pipeline，从互联网视频中提取以物体为中心的高维多模态操作数据。相比依赖有限数量的真机采集，互联网视频可以覆盖更多物体、更多动作和更多交互方式，帮助模型学习物体状态、三维轨迹、接触关系和物理因果变化。

但视频解决的是覆盖面。机器人真正执行任务，还需要掌握更准确的物理规律。

为此，RoboScience机器科学自研高精度通用物理仿真平台 RoboMirage，通过“物理引擎—仿真数据—端到端训练”的闭环，为通用操作模型规模化生成操作轨迹。

具身智能需要的仿真，不只是画面逼真，更重要的是物理过程足够准确。刚体、铰链体、绳索、布料和橡皮筋，需要在同一框架中处理；高速摩擦、柔性形变、刚柔耦合和复杂接触，也要尽可能符合真实规律。

RoboScience机器科学展示的一组“魔术场景”，直观体现了这套引擎的能力。细绳、金属环、橡皮筋和纸牌，在仿真环境中完成滑落、悬停、交错、穿越和叠放。看似简单的动作，背后涉及摩擦滑动、拓扑变化、弹性形变和精细接触。

模型和仿真之外，RoboScience机器科学也在同步推进机器人本体、末端执行器和商业场景部署。

目前，公司已在商超、前置仓电商物流等场景进行 POC 测试。从公司规划看，RoboScience机器科学将优先切入商超、前置仓、电商物流、工业和零售等 B 端场景，远期再逐步拓展至家庭等 C 端场景。

可见，RoboScience机器科学的逻辑不是单点突破，而是搭建一条完整链路：VLOA 定义模型架构，高效利用海量“仿真+视频”数据进行训练转动飞轮，机器人本体进入真实场景完成验证。

04.

VLOA 背后，“斯坦福学术+硅谷工程”的团队组合

VLOA是一条复杂的技术路线。它不只需要模型能力，还需要仿真、硬件和产业落地协同推进。RoboScience机器科学的团队配置，正是围绕这条链路搭建。

首席科学家邵林长期研究机器人操作、灵巧抓取、跨本体泛化和世界建模。他本科毕业于南京大学，博士毕业于斯坦福大学，师从 Jeannette Bohg，联合导师为 Leonidas J. Guibas。与银河通用创始人王鹤、Hillbot创始人苏昊、穹彻智能创始人卢策吾等人一样，成长于斯坦福机器人研究体系。

创始人田野则补上了工程化能力。他本科毕业于中国科学技术大学，硕士就读于斯坦福 AI Lab，师从吴恩达，曾担任苹果 AI Platform技术负责人，参与 AI 底层平台和端侧智能系统建设。这对应的是另一道关键问题——前沿AI 技术如何从论文走向稳定、可部署、可规模化的系统。

具身智能不是纯软件行业。模型之外，还涉及机器人本体、末端执行器、供应链、交付、运维和长期场景迭代。

因此，RoboScience机器科学团队中还吸纳了机器人产品量产、供应链管理和前沿科技投资背景的人才，试图补齐从实验室到产业现场的完整链条。

邵林（左）与田野（右）

目前，公司已经披露完成多轮融资，投资方包括京东集团、商汤科技、达晨财智、招商局创投、零一创投、普华资本等多家 CVC 和财务机构。近期又获得了多家国内外产业龙头、互联网大厂、头部财务机构等的多轮注资。

05.

真正的考验，是把泛化变成生产力

连续两年 ICRA顶会背书，为RoboScience机器科学提供了一个强势开场。但论文证明的是技术上限，商业化考验的是稳定性、成本、交付、运维和客户 ROI。

接下来，它还要证明另一件事：VLOA 能不能在真实场景里稳定运行。

跨机器人、跨物体、跨任务泛化，是 VLOA 的核心价值。但进入商超、仓库和工厂后，机器人面对的是长尾物体、现场干扰、复杂接触和持续运行压力。能不能降低部署成本，能不能从POC 走向规模采购，才是商业化真正的分水岭。

RoboScience机器科学已经搭起了从 VLOA、RoboMirage 到本体部署的技术链路。下一步，是验证这套链路能否在 B 端场景中规模化复制，跑出真正的商业闭环。

如果这一步能够跑通，RoboScience机器科学要做的就不只是一款机器人本体，也不只是一个操作模型，而是一套通用操作底座。

具身智能下一阶段真正比拼的，不是谁的Demo更复杂，而是谁能把泛化能力变成稳定生产力。

精彩推荐

税收数据“接住”资本热度，市场迎来“验收时刻”？

刚刚，宇树科技科创板IPO注册通过，“人形机器人第一股”进入发行倒计时

平均年龄不到25岁，清华博士团队凭什么让雷军独家押注？

为优必选、荣耀、智元代工，这家营收破500亿制造巨头即将赴港IPO

成立仅1年拿下数亿融资，深度机智凭什么让十余家机构集体下注？

精彩文章

扫码手机阅读

连续两年站上ICRA，RoboScience机器科学要把具身智能带到VLOA时代

精彩推荐

关于我们

商务合作