2026年下半年,智元、乐聚等头部具身智能厂商,都在试图从模型架构的军备竞赛,转向数据基础设施的争夺战。这意味着具身智能与物理AI似乎正在经历一场更大范围的范式迁移。
这一转变的内在逻辑在于,当Transformer架构趋于共识,当RL训练框架日渐标准化,制约具身智能规模化落地的瓶颈,开始向上游悄然移动,而三维结构化训练数据的稀缺性,正以越来越刚性的方式卡住整个产业的进化速度。
半导体产业曾有过类似的历史节点。1980年代,设计与制造分离,台积电的崛起使芯片设计公司无需自建晶圆厂,整个产业的创新密度由此数量级跃升。
今天的物理AI领域,正在酝酿一次非常类似的垂直分工。当下游具身智能企业在拼命堆叠算法,越来越多人意识到,谁来为整个产业提供数据货币的基础铸造能力,或许谁就能引领未来。
机器人大讲堂近日发现,群核科技在这个问题上,比多数人更早给出了答案。近日其三篇论文同时入选计算机视觉领域顶会ECCV,覆盖空间感知与推理评测基准、强化学习数据生成、高保真物理仿真三个核心方向,这家企业历经十余年沉淀后,已经系统性构建一条物理AI的仿真数据生产线,试图博弈更远的未来。
01.
三维数据短缺的结构性问题
![]()
先来看看这几篇论文:
《SPEAR: A Simulator for Photorealistic Embodied AI Research》直接对准了仿真训练场的真实感与可编程性瓶颈——群核科技联合Adobe等多家科技巨头共同打造,开放超过1.4万个原生接口,能以照片级真实感同步输出深度图、语义分割等多模态训练数据,相当于为具身智能企业提供了一个开箱即用的高保真训练场。
《Stand Up and Move: Benchmarking Interactive Spatial Intelligence in WalkerBench》瞄准的是评测体系的缺失。这是全球首个基于真实街景的交互式空间智能评测基准,覆盖六大洲161座城市,专门检验AI能否像人类一样,仅凭第一视角画面在真实空间中找到路——它给行业补上了一把过去普遍缺失的标尺。
《Syn-GRPO: Self-Evolving Data Synthesis for MLLM Perception Reasoning》则指向数据生成本身的自我进化能力,提出一套能在训练过程中自动合成全新场景的强化学习框架,从根源上缓解"训练数据见得越多、模型学得越死"的问题。
三篇论文看似各自独立,实则共同拼出了一条完整链路:仿真训练场解决"在哪里训练",评测基准解决"训练得好不好",自进化数据合成解决"数据从哪里来"。这恰恰是当前具身智能产业最稀缺的三类能力。
![]()
目前具身智能训练数据的供给流程,本质上存在三条断裂带。
第一条是采集侧的规模瓶颈。真实物理世界的三维数据采集,从本质上是劳动密集型工程。每一个高质量场景,都需要专业设备扫描、人工标注、语义分层、物理参数赋值,但其链条长、成本高、无法并行化。例如斯坦福的BEHAVIOR-1K数据集,历时数年才完成1000个真实场景的标注;谷歌的RT-2训练数据,规模可观,但主要局限于桌面操作场景。这与具身智能产业实际所需的场景覆盖广度,差距悬殊。
第二条是合成侧的物理失真。业界试图用合成数据弥补真实数据的不足,但大多数合成数据面临外表仿真、内核失真的困境。这些场景看起来逼真,却缺乏碰撞体、关节铰链、摩擦系数等物理属性,更没有语义层级和空间拓扑结构。机器人拿到这样的数据训练,学到的是像素统计而非物理因果。例如OpenAI早期Dactyl项目的经验已经证明,Sim-to-Real Transfer的最大损耗,往往不在算法,而在仿真数据与物理现实之间的物理保真度鸿沟。
第三条是仿真与评测的割裂。即便数据勉强可用,如果缺乏与数据配套的高保真仿真环境和系统性评测基准,研发团队就无从诊断模型的真实短板,数据迭代便失去方向。当前多数具身智能团队,实际上是在没有仪表盘的赛道上飞速前行。
这三项问题的叠加,让具身智能企业虽然在算法层面的资源投入已经相当充分,但上游的数据基础设施投入,严重低于这个赛道的实际需求量级,拖慢了整个具身智能产业落地的进度。
这种短缺,并非危言耸听。据行业测算,截至2026年初,全球高质量真实物理交互数据总量仅约50万小时,不足大语言模型训练数据的两万分之一。而要支撑具身AI模型实现能力的真正突破,业内普遍认为至少需要千万小时起步的数据量级,这中间相差的,不是一个量级,而是接近两个量级的鸿沟。这意味着,谁能率先找到规模化生产高质量三维数据的方法,谁就有可能在这场竞赛中拿到先发优势。
02.
一个无法从头复制的数据底座
![]()
大语言模型之所以能在过去几年实现跃迁式发展,很大程度上得益于互联网几十年沉淀下来的海量文本语料——这是一个现成的、可被大规模爬取的数字底座。但物理AI面临的处境完全不同:物理世界没有一个"现成的互联网"可供抓取。三维空间数据,从结构、语义到物理属性,都需要被重新构建、标注、验证,没有捷径可走。
这也不是一个可以被算力简单碾压的问题。就算堆叠再多的GPU,也无法凭空生成一个带物理属性、可交互、可训练的三维世界——算力可以加速计算,但无法替代对真实物理规律的建模与采集。这正如CUDA构建的软件生态难以被复制:英伟达用了近二十年时间,让CUDA从一套并行计算工具演变为整个AI产业事实上的底层标准,这个过程依赖的不只是技术领先,更是时间沉淀下的生态壁垒。三维物理数据的稀缺性,本质上是同一类问题——它需要的不是某个单点技术突破,而是一整套基础设施长期积累的结果。
也正因如此,全球顶级机构开始联手在物理仿真这个底层环节上做共同投入。2025年9月,NVIDIA、Google DeepMind与Disney Research正式将联合开发的物理仿真引擎Newton贡献给Linux基金会,作为开源项目向全行业开放。Newton构建在NVIDIA Warp与OpenUSD框架之上,三方将各自最强的仿真能力放进同一个开放架构,并已接入MuJoCo Playground、NVIDIA Isaac Lab等主流机器人学习框架。这一动作释放出一个清晰的信号:全球巨头争夺的,已经不再是"谁的引擎更快",而是谁能定义物理世界如何被建模、数据如何被生成——这是一场关于规则制定权的较量,而非单纯的性能竞赛。
在这场较量中,行业目前已经分化出几条并行的数据生产路径。一类是真机遥操采集,由人类远程操控机器人完成任务并记录全过程,优点是更贴近真实物理交互,但单小时有效数据成本普遍在数百元量级,且采集效率难以规模化;一类是人类示教与可穿戴设备采集,通过动捕设备或便携装置记录人类自然动作,扩张速度较快,但受限于人机本体差异,数据复用仍需额外的迁移处理;一类是众包与真实场景部署采集,依托大规模社会化人力或机器人实际运营积累数据,规模潜力大,但标准化与质量管控是普遍难题;还有一类,正是合成与仿真数据路径,其通过算法和工具链批量生成具备物理属性的训练场景,成本最低、产能最大,是目前唯一具备指数级扩张潜力的路径。
而在3D合成数据这条路径上,群核科技可以说一直是行业中分量极重的存在。它的逻辑与多数从零搭建数据工厂的玩家不同:群核科技以酷家乐等空间编辑工具作为底座,在过去十余年服务真实产业客户的过程中,自然沉淀出了海量结构化三维数据,这不是为AI训练专门采集的数据,而是商业应用本身的副产品。过去十余年间,群核科技沉淀了超过5亿个3D场景和4.8亿个3D模型,覆盖家居、商超、工业厂区、医疗、餐厅等多种空间类型。
但规模只是这个数据资产的第一个维度,更关键的是其结构属性。群核科技平台工具链的商业逻辑,倒逼了数据的天然结构化,因为其参与设计的每一个场景大都包含完整的户型布局、语义分区、材质属性和物体层级,因为这是设计软件可用的基本前提。而这恰好是训练数据最稀缺的维度,因为物理AI所需的不是一堆3D点云,而是带语义、有层级、存物理属性的结构化场景。
更重要的是,这是一个活的数据资产。平台每天仍在持续生成新场景,数据边际不断扩张,而不是一次性采集后停止更新的静态库。这使得这条数据壁垒具有一个特殊的经济属性,因为它的形成,本质上是群核科技十年商业运营的副产品,而非一开始就为AI训练目的专门构建。这意味着,任何试图从零开始追赶的竞争者,需要付出的不仅是资金,更是时间,而时间,在AI产业竞争中是不可压缩的稀缺资源。
基于这座数据矿山,群核科技过去几年的探索路径其实从其对外开源成果上清晰可循。首先是在数据层不断将三维数据的训练价值往前推进。2018年群核科技开放全球最大的空间数据集InteriorNet,在那个三维数据极度稀缺的年代,InteriorNet几乎以一己之力定义了室内空间认知数据集的标准,至今仍被大量研究引用。之后推出的结构化Structured 3D定义了三维数据的结构化标注标准。2025年,群核科技将3DGS能力带入AI空间训练领域,发布两个3D高斯领域较有影响力的数据集InteriorGS、SAGE-3D,为3D高斯在仿真训练的应用铺平道路。
可以看到,群核科技的路径是从合成走向真实、从几何走向语义、从可视化走向可训练,逐步去定义这个领域的数据标准。
03.
一条真正面向Physical AI的动态「仿真数据生产线」
站在行业层面来看,群核科技的位置是稀缺的,它的核心壁垒并不只是提供数据资产和定义数据标准,而是提供了一套仿真数据生产线,这是物理AI的基础设施。
如何理解仿真数据生产线?
过去行业理解的数据生产,更多停留在"采集→标注→训练"这样一次性的、静态的链条上:数据采集完成、标注完成,训练任务也就随之结束。
但今天具身智能所需要的数据生产范式已经完全不同。真正具有价值的不再是某一份静态数据集,而是一条能够持续产出SimReady(可直接用于仿真训练)数据的流水线。
打个比方,普通合成数据服务商只提供标准化的数据“教材”,而群核已经在搭建一个“全流程的模拟训练场”,将原始数据资产转化为开箱即用的物理AI训练材料的完整管线能力。我们来拆解下群核这条数据生产线的每一环:
第一步:将物理世界变成AI能够理解的数据
任何生产线,都需要原材料。对于Physical AI而言,这份"原材料"就是高质量的三维空间数据。
群核科技的数据来源并不是单一渠道,除了上文提到的过去十余年积累的10亿三维数据资产,真实世界也正在持续进入这条生产线。比如3D高斯通过高精度、可实时渲染的三维场景重建实现物理世界数字化,为物理 AI 搭建起虚实互通的数字底座。
但由于3D高斯不具备结构化信息,所以导致只能用来“看”,而不能用来“用”。这里就能体现群核科技的独到之处。去年,群核科技做了两项重要工作:开源带有几何语义信息的3D高斯数据集InteriorGS,每个物体都有类别、实例ID、边界框等信息,让3D高斯从“无意义像素”变成“可理解物体”;开源首个基于3D高斯的VLN具身学习数据集SAGE-3D,让3D高斯从“纯视觉工具”变成“可交互环境”。
拥有大量数据,并不意味着拥有足够的数据。真正决定模型泛化能力的,是数据是否能够持续产生新的变化。
因此,在原始数据之上,群核科技又加入了空间智能大模型这一层能力。它不是简单复制已有场景,而是在理解空间结构和语义关系之后,SpatialGen模型能自动生成新的布局、视角、材质、光照以及物体组合,让一个真实空间不断衍生出大量物理合理的新场景。这意味着,数据生产开始从"人工制作"走向"模型生成"。
第二步:把数据真正变成训练能力
当数据准备完成之后,还需要解决另一个行业瓶颈:仿真。
但是,目前市面上基于虚幻引擎的AI仿真工具普遍有三大硬伤:能调用的引擎功能少、传图速度巨慢,还很难对接现成游戏/虚拟场景。
因此,本次ECCV论文中群核科技提出了SPEAR。相比传统仿真平台,它最大的意义不是画面更真实,而是把整个仿真数据生产效率提升了一个数量级。一方面,它开放超过14000个Python接口,让机器人能够高度可编程地控制整个虚拟世界;另一方面,它可以高速输出RGB、深度图、法线、实例分割、语义分割、材质等训练所需的多模态数据,并直接接入InteriorAgent、InteriorGS等结构化资产,实现真实空间到机器人训练环境的快速转换。
除了硬核技术方面,这篇论文还非常值得一提的是,除了群核科技的参与之外,还有来自产业界的长期深耕于仿真、3D视觉方向的多位大佬。所以 SPEAR 会更在意解决仿真里的那些实用性问题。
图源:SPEAR论文
另一方面,群核科技也支持Omniverse、Unreal Engine、Blender、MuJoCo等平台,同时也支持RoboVerse这样的开源仿真平台。
第三步:评测与自进化——生产线的“质检”和“自动补料”
而当AI完成训练以后,有没有基准能够测试训练成果,成为了当下行业的另一大痛点。对于Physical AI来说,评测真正重要的意义,是发现机器人究竟还缺什么。
目前,群核科技陆续构建了WalkerBench、SAGE Bench、SpatiaLQA三套互补的评测基准。模型在哪些场景容易失败,系统就自动生成更多针对性的训练样本,让训练数据随着模型能力不断进化。评测因此不再只是验证结果,而成为下一轮数据生产的起点。从原始空间,到数据生成,再到仿真训练、能力评测、数据反哺,每完成一轮循环,训练数据都会变得更加丰富、更贴近真实世界,机器人也将在这个过程中不断缩小Real-to-Sim-to-Real之间的鸿沟。
综合来看,本质上群核科技做的是两件事:1、让数字世界与物理世界不断对齐;2、规模化生成高质量3D数据的能力,从而高效、高质量、大规模地将物理世界数字化为可训练的数据。
以上这些能力都将陆续沉淀在群核科技的空间智能训练平台SpatialVerse上。目前,SpatialVerse已与智元机器人、银河通用、穹彻智能、禾赛科技、谋先飞等国内头部企业和硅谷科技巨头在空间智能与物理AI方向深度合作。在学术与开源生态层面,谷歌与斯坦福大学联合研究论文FirePlace在致谢中点名了SpatialVerse提供的高质量3D场景数据。学术界的引用与认可,往往是产业级技术能否成功落地的较早信号之一。
不过,具身智能数据基础设施这个赛道,目前仍处于多路径并行探索的早期阶段——真机遥操、众包采集、合成仿真等不同路线各有优劣,谁能最终形成行业标准,仍待时间检验。仿真数据能否完全弥合虚实鸿沟,也仍是学术界与产业界持续讨论的问题。群核科技的优势,更多体现在合成数据这一细分赛道的纵深与先发布局上,而非对整个数据供给问题的一次性解决。
04.
数据层的竞争,才刚刚开始
从CARLA到Isaac Sim再到Newton,仿真器的演化史已经表明,决定具身AI产业格局的,往往不是哪个团队在论文里提出了最优雅的算法,而是谁构建了最难被绕过的基础设施。
ECCV 2026的三篇论文,是群核科技向产业界发出的一份技术能力清单。清单背后,是一条从数据底座到仿真训练场、从评测基准到自进化数据合成的完整链路,而这条链路,正在被国内头部具身智能企业逐步验证其产业价值。
2026年下半场,物理AI的战争,已经实实在在打到了数据层。在这一层,谁能率先建立起规模化、可持续、可验证的数据生产能力,谁就有可能在未来的产业格局中拿到更多话语权。