当物理AI的战争打到数据层，群核科技造了一条“仿真数据生产线”

Jack2026-07-012415机器人技术及应用

2026年下半年，智元、乐聚等头部具身智能厂商，都在试图从模型架构的军备竞赛，转向数据基础设施的争夺战。这意味着具身智能与物理AI似乎正在经历一场更大范围的范式迁移。

这一转变的内在逻辑在于，当Transformer架构趋于共识，当RL训练框架日渐标准化，制约具身智能规模化落地的瓶颈，开始向上游悄然移动，而三维结构化训练数据的稀缺性，正以越来越刚性的方式卡住整个产业的进化速度。

半导体产业曾有过类似的历史节点。1980年代，设计与制造分离，台积电的崛起使芯片设计公司无需自建晶圆厂，整个产业的创新密度由此数量级跃升。

今天的物理AI领域，正在酝酿一次非常类似的垂直分工。当下游具身智能企业在拼命堆叠算法，越来越多人意识到，谁来为整个产业提供数据货币的基础铸造能力，或许谁就能引领未来。

机器人大讲堂近日发现，群核科技在这个问题上，比多数人更早给出了答案。近日其三篇论文同时入选计算机视觉领域顶会ECCV，覆盖空间感知与推理评测基准、强化学习数据生成、高保真物理仿真三个核心方向，这家企业历经十余年沉淀后，已经系统性构建一条物理AI的仿真数据生产线，试图博弈更远的未来。

01.

三维数据短缺的结构性问题

先来看看这几篇论文：

《SPEAR: A Simulator for Photorealistic Embodied AI Research》直接对准了仿真训练场的真实感与可编程性瓶颈——群核科技联合Adobe等多家科技巨头共同打造，开放超过1.4万个原生接口，能以照片级真实感同步输出深度图、语义分割等多模态训练数据，相当于为具身智能企业提供了一个开箱即用的高保真训练场。

《Stand Up and Move: Benchmarking Interactive Spatial Intelligence in WalkerBench》瞄准的是评测体系的缺失。这是全球首个基于真实街景的交互式空间智能评测基准，覆盖六大洲161座城市，专门检验AI能否像人类一样，仅凭第一视角画面在真实空间中找到路——它给行业补上了一把过去普遍缺失的标尺。

《Syn-GRPO: Self-Evolving Data Synthesis for MLLM Perception Reasoning》则指向数据生成本身的自我进化能力，提出一套能在训练过程中自动合成全新场景的强化学习框架，从根源上缓解"训练数据见得越多、模型学得越死"的问题。

三篇论文看似各自独立，实则共同拼出了一条完整链路：仿真训练场解决"在哪里训练"，评测基准解决"训练得好不好"，自进化数据合成解决"数据从哪里来"。这恰恰是当前具身智能产业最稀缺的三类能力。

目前具身智能训练数据的供给流程，本质上存在三条断裂带。

第一条是采集侧的规模瓶颈。真实物理世界的三维数据采集，从本质上是劳动密集型工程。每一个高质量场景，都需要专业设备扫描、人工标注、语义分层、物理参数赋值，但其链条长、成本高、无法并行化。例如斯坦福的BEHAVIOR-1K数据集，历时数年才完成1000个真实场景的标注；谷歌的RT-2训练数据，规模可观，但主要局限于桌面操作场景。这与具身智能产业实际所需的场景覆盖广度，差距悬殊。

第二条是合成侧的物理失真。业界试图用合成数据弥补真实数据的不足，但大多数合成数据面临外表仿真、内核失真的困境。这些场景看起来逼真，却缺乏碰撞体、关节铰链、摩擦系数等物理属性，更没有语义层级和空间拓扑结构。机器人拿到这样的数据训练，学到的是像素统计而非物理因果。例如OpenAI早期Dactyl项目的经验已经证明，Sim-to-Real Transfer的最大损耗，往往不在算法，而在仿真数据与物理现实之间的物理保真度鸿沟。

第三条是仿真与评测的割裂。即便数据勉强可用，如果缺乏与数据配套的高保真仿真环境和系统性评测基准，研发团队就无从诊断模型的真实短板，数据迭代便失去方向。当前多数具身智能团队，实际上是在没有仪表盘的赛道上飞速前行。

这三项问题的叠加，让具身智能企业虽然在算法层面的资源投入已经相当充分，但上游的数据基础设施投入，严重低于这个赛道的实际需求量级，拖慢了整个具身智能产业落地的进度。

这种短缺，并非危言耸听。据行业测算，截至2026年初，全球高质量真实物理交互数据总量仅约50万小时，不足大语言模型训练数据的两万分之一。而要支撑具身AI模型实现能力的真正突破，业内普遍认为至少需要千万小时起步的数据量级，这中间相差的，不是一个量级，而是接近两个量级的鸿沟。这意味着，谁能率先找到规模化生产高质量三维数据的方法，谁就有可能在这场竞赛中拿到先发优势。

02.

一个无法从头复制的数据底座

大语言模型之所以能在过去几年实现跃迁式发展，很大程度上得益于互联网几十年沉淀下来的海量文本语料——这是一个现成的、可被大规模爬取的数字底座。但物理AI面临的处境完全不同：物理世界没有一个"现成的互联网"可供抓取。三维空间数据，从结构、语义到物理属性，都需要被重新构建、标注、验证，没有捷径可走。

这也不是一个可以被算力简单碾压的问题。就算堆叠再多的GPU，也无法凭空生成一个带物理属性、可交互、可训练的三维世界——算力可以加速计算，但无法替代对真实物理规律的建模与采集。这正如CUDA构建的软件生态难以被复制：英伟达用了近二十年时间，让CUDA从一套并行计算工具演变为整个AI产业事实上的底层标准，这个过程依赖的不只是技术领先，更是时间沉淀下的生态壁垒。三维物理数据的稀缺性，本质上是同一类问题——它需要的不是某个单点技术突破，而是一整套基础设施长期积累的结果。

也正因如此，全球顶级机构开始联手在物理仿真这个底层环节上做共同投入。2025年9月，NVIDIA、Google DeepMind与Disney Research正式将联合开发的物理仿真引擎Newton贡献给Linux基金会，作为开源项目向全行业开放。Newton构建在NVIDIA Warp与OpenUSD框架之上，三方将各自最强的仿真能力放进同一个开放架构，并已接入MuJoCo Playground、NVIDIA Isaac Lab等主流机器人学习框架。这一动作释放出一个清晰的信号：全球巨头争夺的，已经不再是"谁的引擎更快"，而是谁能定义物理世界如何被建模、数据如何被生成——这是一场关于规则制定权的较量，而非单纯的性能竞赛。

在这场较量中，行业目前已经分化出几条并行的数据生产路径。一类是真机遥操采集，由人类远程操控机器人完成任务并记录全过程，优点是更贴近真实物理交互，但单小时有效数据成本普遍在数百元量级，且采集效率难以规模化；一类是人类示教与可穿戴设备采集，通过动捕设备或便携装置记录人类自然动作，扩张速度较快，但受限于人机本体差异，数据复用仍需额外的迁移处理；一类是众包与真实场景部署采集，依托大规模社会化人力或机器人实际运营积累数据，规模潜力大，但标准化与质量管控是普遍难题；还有一类，正是合成与仿真数据路径，其通过算法和工具链批量生成具备物理属性的训练场景，成本最低、产能最大，是目前唯一具备指数级扩张潜力的路径。

而在3D合成数据这条路径上，群核科技可以说一直是行业中分量极重的存在。它的逻辑与多数从零搭建数据工厂的玩家不同：群核科技以酷家乐等空间编辑工具作为底座，在过去十余年服务真实产业客户的过程中，自然沉淀出了海量结构化三维数据，这不是为AI训练专门采集的数据，而是商业应用本身的副产品。过去十余年间，群核科技沉淀了超过5亿个3D场景和4.8亿个3D模型，覆盖家居、商超、工业厂区、医疗、餐厅等多种空间类型。

但规模只是这个数据资产的第一个维度，更关键的是其结构属性。群核科技平台工具链的商业逻辑，倒逼了数据的天然结构化，因为其参与设计的每一个场景大都包含完整的户型布局、语义分区、材质属性和物体层级，因为这是设计软件可用的基本前提。而这恰好是训练数据最稀缺的维度，因为物理AI所需的不是一堆3D点云，而是带语义、有层级、存物理属性的结构化场景。

更重要的是，这是一个活的数据资产。平台每天仍在持续生成新场景，数据边际不断扩张，而不是一次性采集后停止更新的静态库。这使得这条数据壁垒具有一个特殊的经济属性，因为它的形成，本质上是群核科技十年商业运营的副产品，而非一开始就为AI训练目的专门构建。这意味着，任何试图从零开始追赶的竞争者，需要付出的不仅是资金，更是时间，而时间，在AI产业竞争中是不可压缩的稀缺资源。

基于这座数据矿山，群核科技过去几年的探索路径其实从其对外开源成果上清晰可循。首先是在数据层不断将三维数据的训练价值往前推进。2018年群核科技开放全球最大的空间数据集InteriorNet，在那个三维数据极度稀缺的年代，InteriorNet几乎以一己之力定义了室内空间认知数据集的标准，至今仍被大量研究引用。之后推出的结构化Structured 3D定义了三维数据的结构化标注标准。2025年，群核科技将3DGS能力带入AI空间训练领域，发布两个3D高斯领域较有影响力的数据集InteriorGS、SAGE-3D，为3D高斯在仿真训练的应用铺平道路。

可以看到，群核科技的路径是从合成走向真实、从几何走向语义、从可视化走向可训练，逐步去定义这个领域的数据标准。

03.

一条真正面向Physical AI的动态「仿真数据生产线」

站在行业层面来看，群核科技的位置是稀缺的，它的核心壁垒并不只是提供数据资产和定义数据标准，而是提供了一套仿真数据生产线，这是物理AI的基础设施。

如何理解仿真数据生产线？

过去行业理解的数据生产，更多停留在"采集→标注→训练"这样一次性的、静态的链条上：数据采集完成、标注完成，训练任务也就随之结束。

但今天具身智能所需要的数据生产范式已经完全不同。真正具有价值的不再是某一份静态数据集，而是一条能够持续产出SimReady（可直接用于仿真训练）数据的流水线。

打个比方，普通合成数据服务商只提供标准化的数据“教材”，而群核已经在搭建一个“全流程的模拟训练场”，将原始数据资产转化为开箱即用的物理AI训练材料的完整管线能力。我们来拆解下群核这条数据生产线的每一环：

第一步：将物理世界变成AI能够理解的数据

任何生产线，都需要原材料。对于Physical AI而言，这份"原材料"就是高质量的三维空间数据。

群核科技的数据来源并不是单一渠道，除了上文提到的过去十余年积累的10亿三维数据资产，真实世界也正在持续进入这条生产线。比如3D高斯通过高精度、可实时渲染的三维场景重建实现物理世界数字化，为物理 AI 搭建起虚实互通的数字底座。

但由于3D高斯不具备结构化信息，所以导致只能用来“看”，而不能用来“用”。这里就能体现群核科技的独到之处。去年，群核科技做了两项重要工作：开源带有几何语义信息的3D高斯数据集InteriorGS，每个物体都有类别、实例ID、边界框等信息，让3D高斯从“无意义像素”变成“可理解物体”；开源首个基于3D高斯的VLN具身学习数据集SAGE-3D，让3D高斯从“纯视觉工具”变成“可交互环境”。

拥有大量数据，并不意味着拥有足够的数据。真正决定模型泛化能力的，是数据是否能够持续产生新的变化。

因此，在原始数据之上，群核科技又加入了空间智能大模型这一层能力。它不是简单复制已有场景，而是在理解空间结构和语义关系之后，SpatialGen模型能自动生成新的布局、视角、材质、光照以及物体组合，让一个真实空间不断衍生出大量物理合理的新场景。这意味着，数据生产开始从"人工制作"走向"模型生成"。

第二步：把数据真正变成训练能力

当数据准备完成之后，还需要解决另一个行业瓶颈：仿真。

但是，目前市面上基于虚幻引擎的AI仿真工具普遍有三大硬伤：能调用的引擎功能少、传图速度巨慢，还很难对接现成游戏/虚拟场景。

因此，本次ECCV论文中群核科技提出了SPEAR。相比传统仿真平台，它最大的意义不是画面更真实，而是把整个仿真数据生产效率提升了一个数量级。一方面，它开放超过14000个Python接口，让机器人能够高度可编程地控制整个虚拟世界；另一方面，它可以高速输出RGB、深度图、法线、实例分割、语义分割、材质等训练所需的多模态数据，并直接接入InteriorAgent、InteriorGS等结构化资产，实现真实空间到机器人训练环境的快速转换。

除了硬核技术方面，这篇论文还非常值得一提的是，除了群核科技的参与之外，还有来自产业界的长期深耕于仿真、3D视觉方向的多位大佬。所以 SPEAR 会更在意解决仿真里的那些实用性问题。

图源：SPEAR论文

另一方面，群核科技也支持Omniverse、Unreal Engine、Blender、MuJoCo等平台，同时也支持RoboVerse这样的开源仿真平台。

第三步：评测与自进化——生产线的“质检”和“自动补料”

而当AI完成训练以后，有没有基准能够测试训练成果，成为了当下行业的另一大痛点。对于Physical AI来说，评测真正重要的意义，是发现机器人究竟还缺什么。

目前，群核科技陆续构建了WalkerBench、SAGE Bench、SpatiaLQA三套互补的评测基准。模型在哪些场景容易失败，系统就自动生成更多针对性的训练样本，让训练数据随着模型能力不断进化。评测因此不再只是验证结果，而成为下一轮数据生产的起点。从原始空间，到数据生成，再到仿真训练、能力评测、数据反哺，每完成一轮循环，训练数据都会变得更加丰富、更贴近真实世界，机器人也将在这个过程中不断缩小Real-to-Sim-to-Real之间的鸿沟。

综合来看，本质上群核科技做的是两件事：1、让数字世界与物理世界不断对齐；2、规模化生成高质量3D数据的能力，从而高效、高质量、大规模地将物理世界数字化为可训练的数据。

以上这些能力都将陆续沉淀在群核科技的空间智能训练平台SpatialVerse上。目前，SpatialVerse已与智元机器人、银河通用、穹彻智能、禾赛科技、谋先飞等国内头部企业和硅谷科技巨头在空间智能与物理AI方向深度合作。在学术与开源生态层面，谷歌与斯坦福大学联合研究论文FirePlace在致谢中点名了SpatialVerse提供的高质量3D场景数据。学术界的引用与认可，往往是产业级技术能否成功落地的较早信号之一。

不过，具身智能数据基础设施这个赛道，目前仍处于多路径并行探索的早期阶段——真机遥操、众包采集、合成仿真等不同路线各有优劣，谁能最终形成行业标准，仍待时间检验。仿真数据能否完全弥合虚实鸿沟，也仍是学术界与产业界持续讨论的问题。群核科技的优势，更多体现在合成数据这一细分赛道的纵深与先发布局上，而非对整个数据供给问题的一次性解决。

04.

数据层的竞争，才刚刚开始

从CARLA到Isaac Sim再到Newton，仿真器的演化史已经表明，决定具身AI产业格局的，往往不是哪个团队在论文里提出了最优雅的算法，而是谁构建了最难被绕过的基础设施。

ECCV 2026的三篇论文，是群核科技向产业界发出的一份技术能力清单。清单背后，是一条从数据底座到仿真训练场、从评测基准到自进化数据合成的完整链路，而这条链路，正在被国内头部具身智能企业逐步验证其产业价值。

2026年下半场，物理AI的战争，已经实实在在打到了数据层。在这一层，谁能率先建立起规模化、可持续、可验证的数据生产能力，谁就有可能在未来的产业格局中拿到更多话语权。

精彩推荐

平均年龄不到25岁，清华博士团队凭什么让雷军独家押注？

为优必选、荣耀、智元代工，这家营收破500亿制造巨头即将赴港IPO

成立仅1年拿下数亿融资，深度机智凭什么让十余家机构集体下注？

当芯片长出手脚，3274亿市值的巨头快速切入具身智能

北大仉尚航团队提出 LaST-R1框架，机器人首次学会"边想边做"！

精彩文章

扫码手机阅读

当物理AI的战争打到数据层，群核科技造了一条“仿真数据生产线”

精彩推荐

关于我们

友情链接

商务合作