虚实融合,跨维携空间与具身智能新品亮相2024 WRC

2024-08-271353机器人技术及应用

暑热未消的初秋,似乎全世界的人形机器人都汇聚在了北京。


 

“火热”氛围从气温蔓延至了场内,8月25日,为期五天的世界机器人大会(WRC)在北京北人亦创国际会展中心圆满落幕。这是一场属于机器人的盛宴:169家企业展出600余件创新产品;27款人形机器人在博览会亮相,数量高达历届之最。


 


 

一方面,人形机器人稳占C位,比心卖萌的、农业采摘的、炸薯条的、煮咖啡的、踢足球的,甚至琴棋书画、吹拉弹唱,毫无疑问地成为了全场焦点。另一面,在硅基生命大秀异常火爆的背后,在前景美好的集体狂欢背面,其离真正落地还有很长的路要走。第一道要翻越的大山便是数据的获取。


 


 

“我们手中的数据还远远不够。”在同期举办的世界机器人大会论坛中,来自世界范围内的专家学者、企业家、工程师等,对数据的获取方式争论不休,目前分化出几种路径:一派坚持从现实世界获取真实数据,一派提倡使用仿真合成数据,还有的团队选择使用不同比例的混合数据集。


 

香港中文大学(深圳)终身教授、跨维智能创始人贾奎是通过合成数据实现通用具身智能的倡导者与践行者。其创立的跨维智能,已在多个场景中,以100%的合成数据,在毫米/亚毫米的精度要求下,实现99.9%以上的任务成功率,这在全球范围内可能都是绝无仅有的。


 

高质量数据的日益枯竭如何破局?合成数据能够成为打开 AGI 大门的钥匙吗?对技术的极致追求如何同时兼顾商业化破局?8月22日下午,贾奎受邀出席《2024世界机器人大会具身智能产业趋势与未来发展论坛》,并发表主题演讲,参与圆桌论坛,深入阐释了通过Sim2Real AI引擎实现通用具身智能的技术路径。


 


 

应对“数据饥渴症”:引擎空间是最高效通往通用性具身智能的路径


 

“通用能力意味着必须有海量的机器人操作数据才能实现目的。”贾奎介绍,具身智能的基本定义在于通过让简单的机器人本体或相似的本体执行多种任务,而这一过程的核心,是如何将大模型技术从自然语言处理扩展到机器人多模态模型的应用。


 

机器人多模态大模型不仅涉及语言,还包括3D视觉、力觉和触觉等复杂模态的整合。这意味着,为了让机器人能够在各种任务中实现感知、理解、决策和执行的通用性,必须依赖海量的操作数据。这些数据的收集和处理,直接关系到具身智能能否真正实现通用性。


 


 

“具身智能还能套用之前像大语言模型、语言图像模型,真实采集标注这种方式吗?几乎不可能。”贾奎指出传统的大数据采集和标注方式,面对具身智能的复杂需求已显得捉襟见肘。


 

从技术路径上看,其效率低下。比如,假设目标是让机器人抓取世界上任意鼠标,选择真实采集意味着需要从不同环境中,长时间采集成千上万、甚至世界上所有鼠标的数据。这不仅包括机器人操作和轨迹的数据,还涉及传感器收集的视觉、力觉、触觉数据。然而,在真实世界中,这些模态是无法解耦的,因此必须采集大量数据,极为耗费资源。


 

从商业落地的角度来看,成本高昂是另一问题。“要实现这种数据采集,必须先开发一种商业模式,例如通过可穿戴设备,让用户在使用过程中顺便帮助采集数据,否则是不现实的。” 


 

相较之下,贾奎认为Sim2Real是当前最适合空间智能、具身智能的范式。通过物理仿真生成的合成数据,可以在虚拟环境中生成大量多样化的数据,极大地提高了数据获取的效率,并能通过参数调整适应多种应用场景。其中的关键在于,虚拟仿真空间里的机器人本体、传感器、末端执行器、环境、对象,对象上面的颜色、纹理、材质全部都是解耦的,可以独立调整。换言之,只需在引擎空间少量的数据采集,你就可以轻松改变环境、状态、纹理、颜色等。比如,将木质鼠标变成金属鼠标,只需调整相应的材质空间参数。正是这种引擎空间的解耦性,极大地帮助解决具身智能的数据问题。
 


 

“我们从来不是为了Sim2Real而这样做,而是从第一性原理出发,由事务的内在规律和通用机器人的落地目标所决定的。”在圆桌论坛环节,贾奎详细阐释了选择这一路径的原因。通过精细化的仿真调整和模型优化,Sim2Real技术正在逐步成为实现通用性具身智能的最高效路径,为具身智能的广泛应用奠定了坚实基础。


 


 

如何走通Sim2Real路径?Domain Gap或成关键


 

“许多人认为合成数据质量不如真实数据。但实际上恰恰相反,合成数据的质量往往更高,只要知道怎么解决Domain Gap的问题就行了。”贾奎在演讲中指出。


 

贾奎探讨了实现Sim2Real AI的主要痛点和挑战,强调了精确的底层物理仿真、从仿真到数据合成、标注再到模型训练的全链条自动化,以及合成数据与具身智能大模型相匹配的重要性。在他看来,解决Sim2Real 中的Domain Gap是关键一步。


 

拆解来看,在Sim2Real AI技术的应用中,首先选择合适的机器人本体,并将其加载到引擎空间中。在这个虚拟空间里,机器人本体将通过相应的虚拟传感器进行控制。如果使用的本体是像当前协作机械臂这样高精度的设备,其在引擎空间的控制表现几乎与真实机器上完全一致。然而,存在的主要问题是来自真实传感器和虚拟传感器之间的差异。例如,2D摄像头在虚拟空间中渲染的数据与真实摄像头的数据之间存在差异,虚拟深度相机生成的点云数据与真实设备之间也会有差距。如何缩小或消除这些差异,是Sim2Real技术的核心挑战之一。


 

这种看似劣势的差异实际上可以转化为优势。贾奎认为,为了实现大模型的通用性,在虚拟空间中模拟不同传感器的多样性至关重要。“只要我们能够在虚拟环境中涵盖真实场景中可能遇到的各种环境和对象的变化,那么生成的数据和训练的模型就有机会在实际场景中有效解决这些差异问题。”


 

此外,针对将现实世界中的每一个物体都扫描进引擎空间的高昂成本,贾奎提出经济有效的解决方案——3D生成式AI技术,“当目标是完全的通用性时,生成式AI能够产生大量丰富多样的数字资产,即使这些资产与真实世界不完全一致。从这个角度来看,引擎空间无疑是实现具身智能最为高效的路径。”


 


 

打造具身智能的“大脑”和“眼睛”,打通虚实助力商业落地


 

作为科学家创业的代表,贾奎及其团队在从学术研究到产品研发,再到商业落地的道路上,持续探索了多年。Fantasia3D、4D Mesh、3D AffordanceNet……一系列发表在顶级刊物上前沿学术成果,为技术的商业化应用奠定了坚实基础。贾奎表示:“我们能够顺利走通Sim2Real的技术路径,得益于在这一领域的大量研究和长期实践。”


 

在虚拟空间层面,跨维智能不断锤炼高通用性具身智能的“大脑”——基于多种学习策略和多年的技术积淀,跨维智能自主研发了DexVerse™具身智能引擎。该引擎从底层物理仿真开始,模拟各种传感器的数据合成,支持具身智能技能的自动标注、模型研发设计和自动训练,最终实现模型输出的全链条自动化。


 

作为跨维智能软硬件一体化产品矩阵的技术底座,DexVerse™引擎已在多个领域成功应用。“目前在工业和一些商业场景中,我们已实现了无需研发人员介入的自动化操作。”贾奎表示,“只需输入一个操作对象,系统就能自动完成数据生成、标注计算,并在线传递给相应的AI模型进行训练。整个过程无需存储数据,高效且精准,是当前实现具身智能通用化技能的最佳路径。”


 

同时,面向现实世界,跨维智能持续升级具身智能的“眼睛”——空间智能传感器。在训练具身智能大模型的基本范式中,以跨维智能自研的纯视觉空间智能传感器读取2D图像作为输入,就能在DexVerse™ 训练出的这种空间智能大模型中得到三维空间的信息,并通过Equivariant transformer 和 Diffusion policy 估计出机器人的轨迹动作,从而实现虚实世界的打通。


 

“这套Sim2Real解决方案,通过针对具体场景选定机器人配置的pipeline,能够通向更多的机器人技能,在更广泛的应用场景和机器人平台中实现最佳表现。我们相信这也是实现人类所期望的具身智能的根本技术范式。”贾奎表示。


 

通过与上下游合作伙伴的紧密合作,跨维智能致力于推动具身智能技术在更多场景的落地,逐步实现具身智能的通用性目标。