ICRA上热议的世界模型,速腾聚创空间智能切准新机遇?

Jack2026-06-052472机器人技术及应用

如果把过去两年机器人行业最热门的关键词写在一张纸上,那么几乎所有人都会写下同样几个名字:物理AI、VLA、世界模型、Agent、具身智能。

从OpenAI到Google DeepMind,从Figure到Physical Intelligence,从国内一众具身智能创业公司到全球资本市场,整个行业几乎将全部注意力都集中在如何让机器人拥有更聪明的大脑,如何让机器人能够理解世界、推理世界,并最终像人类一样自主完成复杂任务。

资本市场也遵循着同样的逻辑。人们追逐模型,讨论参数规模,研究VLA架构,分析世界模型,试图从算法层面寻找下一家OpenAI式企业。

然而,当全球机器人领域最具影响力的学术盛会——ICRA 2026在维也纳开幕时,一个与主流叙事并不完全一致的信号,却开始在会场中不断出现。



 

今年ICRA的主题是“Robots for All”,在超过8000名参会者、数百场论坛中,如果仔细观察今年大会的Workshop和专题论坛,会发现无论是主动感知(Active Perception)、视觉与触觉融合(Vision-Tactile Intelligence)、多模态空间智能(Multi-modal Spatial Intelligence),还是面向具身智能的主动感知与闭环规划,一股来自学术,一股来自现实的力量,正在同时拉动机器人行业的底层重构,但它们从不同方向,指向了同一个技术新缺口,那就是机器人究竟能否真正理解它所处的物理世界?

正如速腾聚创副总裁杨先声在接受采访时,用这个空间格局描述他对整个行业当下处境的判断:机器人正在经历一场全行业的数据质量挑战,而突破困境的关键,恰好就是高精度的空间感知硬件。相比外界熟悉的激光雷达标签,这家公司正在试图回答一个更底层的问题:当机器人真正进入千行百业之后,如何来更好定义机器人的感官系统?

01.

学术侧的世界模型遭遇天花板

过去两年,具身智能的学术前沿有过一段高度乐观的时期。VLA、世界模型、具身大模型,这批概念在2024年前后密集出现,描述的是同一个愿景:给机器人一个足够大的模型,用足够多的数据喂养它,它就能泛化到现实世界的各种场景。

但这个愿景正在遭遇一道物理层面的墙。MIT教授Luca Carlone在ICRA 2026的主旨演讲中就提出,真正支撑机器人长时程自主能力的,是能提供可执行的语义理解与空间记忆的感知系统。因为模型解决的是机器人知道该做什么,感知系统解决的是知道周围发生了什么,后者决定前者是否成立。

这个判断,本质上是在说,世界模型的训练瓶颈,不在算力,不在模型结构,而在数据。因为很多人忽略了世界模型的基础究竟是什么?答案并不是模型本身。而是世界。或者更准确地说,是关于真实世界的数据。无论是语言大模型还是世界模型,本质上都建立在数据之上。大语言模型依赖互联网文本,视觉模型依赖海量图像,而世界模型则依赖机器人对于真实物理世界的持续观察、记录与理解。问题恰恰出现在这里。

然而,一个众所周知的问题是,语言数据在互联网上已经无比丰富,图像数据同样如此。但机器人训练需要的,不是图片,而是真实物理世界的高精度三维空间数据,包含深度信息、物体姿态、运动轨迹,以及各种光照和遮挡条件下的稳定感知结果。这类数据,目前全球几乎是空白。

速腾聚创杨先声在ICRA现场说的话很直白:大量做机器人训练的终端客户,看了现有纯视觉方案采集的数据之后,发现根本无法满足训练需求。视觉方案可以采集图像,但图像没有深度,没有精确的三维结构,在光线变化、反光材质、遮挡等场景下频繁失效,用这样的数据训练出来的模型,泛化能力极为有限。



 

今年ICRA会场里密集出现数据采集公司,正是因为整个行业在同一时刻意识到,模型的天花板最终仍然受制于感知能力与数据质量。世界模型的下一步,取决于谁能生产出可用的三维空间训练数据。而这件事的前提,是拥有足够好的感知硬件。

这是学术侧拉动感知需求的第一根弦。因为世界模型本质上是在模拟世界,而不是创造世界,这就越依赖真实世界数据。

世界模型越火,感知反而越重要。或者换句话说,世界模型的研究,正在把感知重新推回舞台中央。

02.

机器人进入真实世界的物理关卡

另一根弦,来自机器人落地现实时撞上的物理墙。

如果说世界模型代表的是技术逻辑,那么机器人落地则代表产业逻辑。

过去十几年,机器人产业的大部分应用场景其实都属于典型的结构化环境。工业机器人面对固定工位,仓储机器人面对固定路线,环境可预测、变量可控制。因此感知系统的重要性长期被低估。

机器人不需要真正理解世界,只需要适应被提前定义好的世界。但随着具身智能兴起,情况开始发生变化,人形等更多类型的机器人正在走出工厂,进入仓库、进入商超、进入医院、甚至进入户外开放环境和家庭。

而真实世界最大的特点,就是不可预测。光照会变化、地面会变化、物体会变化、人会变化、任务本身也会变化。于是一个新的矛盾开始出现。机器人已经越来越会运动,却依然很难稳定完成任务。

这也是为什么近年来越来越多具身智能挑战赛开始强调开放环境、自主决策和真实场景验证,因为行业已经意识到,机器人真正需要解决的问题,不再是完成一个预设动作,而是在复杂环境中持续理解环境、理解变化并作出正确决策。

从某种意义上说,机器人产业正在遭遇属于自己的感知危机。因为过去依靠结构化环境掩盖的问题,如今正在开放环境中被彻底暴露出来。因为机器人的每一次抓取、每一次操作,都是一次感知系统与物理世界的直接交互。



 

速腾聚创杨先声在采访中用智能驾驶和机器人的对比,给出了一个可以量化的感知鸿沟,他指出,车载激光雷达在100米距离可以实现5到10厘米的深度精度,这对自动驾驶是够用的。但机器人面对的精细操作任务,需要毫米级精度,差一个量级。如果用当前的双目、结构光、iToF相机传统传感器方案来做机器人操作,情况更糟,因为没有一颗传感器可以做到又稳定,测距又远,精度又高、时延又低。这本质上是当前传感器技术路线的系统性约束。

这道关卡带来的问题,在今年ICRA会场上随处可见。大量演示中的机器人能做精细任务,但速度极慢,效率远低于人类,例如扎气球、分拣零件、操作工具,每一个动作都充满迟疑。

杨先声的判断是,本质上是感知能力在物理层面的上限太低,导致算法系统要在不确定性中反复估算和试探。感知硬件提供立体空间信息越好,算法需要猜的东西就越少,操作效率才有可能接近人类水平。

这是产业侧拉动感知需求的第二根弦。

03.

两条路径交汇的地方

学术需要数据,产业需要稳定落地,这两根弦在同一个位置产生共振,那就是机器人行业需要一套高精度、高可靠性、可量产的三维空间感知基础设施,而这套东西今天并不存在。

速腾聚创在ICRA展示的,正是他们认为可以填补这个位置的技术方向。

速腾这次在ICRA展台展示的新一代感知系统,核心是把深度探测与RGB在物理层面做深度融合,这不是两套传感器各自工作、后端做算法对齐,而是在硬件层面让深度信息和颜色信息天然同步,从物理源头解决对齐问题。

大讲堂认为,其核心的工程价值在于,这套方案输出的不是两路异构数据,而是直接同步的RGB-D信息,带颜色的三维点云,后端不需要做反算,大幅降低算力消耗,也消除了传统双传感器方案在标定和时间对齐上的累积误差。

这不是第一次迭代。从去年的H1、H2,到今年ICRA展示的这套新架构,速腾聚创走的是一条持续收敛的技术路线,那就是朝着“既能测得远,又不受环境光影响,精度足够高,分辨率足够大”的方向逼近。

支撑这条路径的底层,是他们自2023年前后全面推进的自研SPAD-SoC芯片技术。SPAD可以在单光子级别完成数字化采样,集成度可以做得极高,在这套架构下,做几百线甚至千线的高分辨率三维点云,从工程上变成了可行的事情。



 

对于机器人而言,这意味着获取的不再是碎片化的数据,而是完整的空间。对于世界模型而言,这意味着输入的不再只是图像,而是数字世界。对于整个产业而言,这意味着机器人感知开始从“多个传感器协同”迈向“统一空间感知系统”,这是在重新定义机器人感知系统的产业形态。

从自研SPAD-SOC芯片,到此次在ICRA展示的新一代空间智能感知系统,速腾的底层逻辑始终一致,那就是构建机器人获取真实世界信息的入口,向机器人感知基础设施公司进阶。

04.

谁有机会定义下一个时代?

如果说2024年是具身智能元年。2025年是世界模型元年。那么2026年很可能会成为机器人感知基础设施元年。

因为越来越多企业开始发现,机器人最终并不是活在模型里,而是活在真实世界里;世界模型也不是凭空产生的,它建立在持续不断的环境感知、空间理解以及真实世界数据采集之上。

ICRA 2026最值得关注的变化,或许并不是又出现了哪个新的模型框架,也不是哪个机器人完成了新的炫酷演示,而是整个行业正在集体意识到,机器人产业的下一场战争,未必首先发生在大脑之间,更有可能率先发生在感官之间。

过去十年,自动驾驶产业证明了,谁掌握数据入口,谁就掌握未来。而未来十年的机器人产业,也许正在验证一件事类似的事情:谁掌握机器人的高质量数据,谁就有机会定义机器人的世界。

从这个意义上看,速腾聚创在ICRA展示的或许不仅是一套新的感知系统。更是在提前争夺具身智能时代最关键、也最容易被忽视的一张入场券。

05.

结语与未来

机器人感知的终局形态,今天没有人能给出确定答案。但有一件事,正在被越来越多人意识到,那就是无论世界模型训练到什么程度,无论算法迭代得多快,感知系统作为机器人与物理世界之间的唯一接口,始终是整个系统物理能力的上限。

模型可以升级,算法可以迭代,但传感器感知到什么程度,决定了机器人最终能做什么。

两股力量正在把这个问题推向产业竞争的中心。感知基础设施的争夺,正在成为具身智能时代真正意义上的底层战场。