世界模型到底在建模什么？

李鑫2026-06-282827机器人技术及应用

2025到2026年，具身智能圈子里最热的词是“世界模型”，也是语义最混乱的词。这种混乱不是学术上的分歧，而是整个行业在概念都没对齐的情况下，已经开始大规模投入算力、资金和研究资源。

世界模型到底在建模什么？这个问题目前没有统一答案。有人在建模视觉序列的统计规律，有人在建模抽象特征空间的物理常识，有人在建模动作和状态的联合分布。

2026年6月，李飞飞把世界模型拆成三类：渲染器（生成画面）、仿真器（模拟物理状态）、规划器（输出动作）。这个拆分揭示了一个关键问题，不同技术路线在解决完全不同的问题，但可以包装成同一个故事对外讲。

01.

三条路线各自在做什么？

Open AI的Sora是渲染器路线的代表。核心思路是：把几百亿小时的互联网视频作为训练数据，让模型通过逐帧预测像素来学习物理规律。问题在于，像素预测本质上是学习视觉序列的统计规律，而不是物理因果结构。

LeCun反复强调的现象确实存在：Sora生成的玻璃杯碰地不碎、人的手臂穿过椅背，这类“物理幻觉”反复出现。NVIDIA的Cosmos3用两千万小时视频做预训练，规模是Sora的数倍，但物理一致性问题依然没有根本解决。值得注意的是，Cosmos也开始向世界状态预测方向转，这说明纯渲染路线的局限已经被NVIDIA自己意识到了。

LeCun团队的V-JEPA系列走了不同方向：放弃像素重建，在抽象特征空间里学习物理常识。V-JEPA 2用百万小时视频做自监督预训练，只用62小时机器人数据微调就让机械臂实现了零样本抓取陌生物体。数据效率确实高，但代价是空间细节的丢失，抽象特征空间很难保留毫米级的精细操作所需的空间信息。

NVIDIA的DreamZero是动作驱动路线，140亿参数的视频扩散骨干联合预测未来状态和动作序列，零样本泛化比纯VLA模型高出2倍。工程难点在推理效率，7Hz的实时闭环控制在实验室里勉强可用，在机器人本体等边缘设备上还需要大幅优化。

RWTH亚琛和代尔夫特理工大学2026年3月的综述指出了一个核心矛盾：视觉保真度的提升和开环精度的改善，并不等于更安全的闭环行为。画面越来越像，不代表理解越来越深，Sora的画面质量在进步，但物理世界理解能力的进步速度远远跟不上。

02.

数据困局比技术路线更致命

技术路线的差异是表象，数据问题才是更深层的死结。

世界模型面临一个三角困局：真实交互数据稀缺且昂贵，仿真数据有sim-to-real域差距，合成数据会导致模型崩溃。Nature发表的“模型崩溃”研究给出了明确结论：用模型生成的合成数据训练下一代模型，性能会不可逆地退化。

具身智能场景的数据问题有其特殊性。全球真实工作场景运行的机器人数量仍然很少，这是一个难以快速扩展的数据基础。机器人预训练需要的第一人称视角操作视频，这类数据在互联网上几乎爬不到。泛化性是另一个难题：在100个家庭采集的数据能否泛化到10000个家庭？如果不能，采集规模需要达到什么量级？这些问题目前没有明确答案，只能靠大量投入试错。

智元机器人2026年6月开源的AGIBOT WORLD2026数据集有个值得注意的细节：GE 2.0在训练中主动利用了大量“失败数据”，抓取空手、物体滑落、动作偏差等非理想轨迹。这个思路指向一个根本问题：完美的仿真数据教不会机器人应对失败，而真实世界充满了失败。智元选择正视失败数据而不是只用成功案例训练，是在数据策略上的务实转变。

NVIDIA的“计算即数据”范式可以用11小时生成78万条轨迹，效率惊人，但这些仿真轨迹和真实物理世界的差距有多大，目前缺乏公开的系统性评估。数量不等于质量。

03.

长时序预测：架构层面的局限

长时序预测的误差累积问题至今没有实质突破。DeepMind的Genie 2号称可以生成长时间连贯的3D交互环境，但实际运行超过几分钟场景就开始漂移，体悬浮、重力方向偏转、物体凭空出现又消失。这个问题从2018年Ha和Schmidhuber提出世界模型经典架构至今，一直是核心痛点。

这不是算力问题，是架构的内在局限。对于需要长时间稳定运行的具身智能任务，比如一个机器人完成20分钟的家务流程，或者在工厂产线上持续作业，误差累积意味着模型预测会逐渐偏离真实物理状态，最终导致动作规划失效。目前的主流做法是用频繁的真实观测来校正预测偏差，但这又回到了对感知系统的依赖，世界模型的“预测未来”能力被大打折扣。

04.

参数规模不是关键

2026年5月CVPR的WorldArena评测出了一个让很多人意外的结果：智元的GE 2.0仅用20亿参数，以68.26分的综合得分在Track 1赛道力压谷歌、英伟达等14支顶尖团队拿了第一，而且没有针对赛题做任何特殊优化。20亿参数打赢140亿参数，七分之一的规模胜出。

在具身智能的具体场景里，仿真精度和规划效率比参数规模重要得多。参数堆量不是万能药，这件事在大语言模型领域已经被验证过了，在世界模型上会再次被验证。更小的模型意味着更低的推理延迟、更少的能耗、更容易的边缘部署，这些在实际应用中的价值，远超benchmark上几个点的提升。

05.

即便如此，市场仍在加速

技术路线有局限，数据困局无简单解，长时序预测有架构瓶颈，但这些并没有阻止行业的大规模投入。因为在具身智能这个赛道上，先发优势依然决定性。

世界模型创业公司真正的护城河有三样：

垂直场景的数据飞轮。机器人有遥操作数据，工业装配有产线数据。这些数据天然具有排他性，互联网上爬不到。谁先在一个垂直场景里把数据闭环跑通，后来者的追赶难度就会指数级上升。数据飞轮一旦转起来，技术上的小幅领先会被数据优势放大成巨大的壁垒。

仿真到真实的域迁移工程能力。这不是论文里刷榜的指标，而是真机部署后的实际成功率。谁能在sim-to-real gap上做出实质突破，谁就掌握了工业界最稀缺的能力。智元用“失败数据”的思路值得关注：不是追求更逼真的仿真，而是追求更真实的失败场景覆盖。这种务实的思路，比追求视觉保真度更接近工业落地的真实需求。

端侧部署的工程能力。世界模型最终要在机器人本体上运行。20亿参数跑在边缘设备和140亿参数跑在云服务器，是完全不同的工程挑战。轻量化不是简单剪枝，而是从架构设计阶段就把边缘部署约束考虑进去。能把模型塞进功耗受限、算力有限的机器人本体，这本身就是护城河。

06.

评测标准：谁定义规则，谁就有话语权

还有一个被很多人忽略的点：评测标准。目前世界模型没有公认的benchmark，视频质量用PSNR和SSIM，物理一致性用人类评分，机器人操作成功率每家用不同任务集，论文里的数字互相不可比。

CVPR 2026上的WorldArena是一次有意义的尝试，但覆盖面和权威性还远不够。谁先定义出行业认可的评测标准，谁就掌握了话语权，这和当年ImageNet之于计算机视觉的意义类似。标准的制定权，本身就是一种护城河。

07.

突破会来自哪里？

各条技术路线的收敛时间，业内大致预计在2027年到2028年之间。李飞飞的判断是，渲染器、仿真器、规划器三者底层知识同源（几何、物理、动力学），终极形态是能灵活切换输出形式的统一世界基础模型。这个判断有其逻辑，但“知识同源”不等于“同一套架构能把所有事情做好”，大语言模型的演进已经教过我们这个道理。

2026年上半年的世界模型论文，争论越来越细，框架越来越像。这是技术成熟前的典型状态，也可能是重大突破前的平静期。突破更可能来自对基础问题的重新思考，比如“机器怎么理解物理世界”这个根问题，而不是在现有路线上的渐进优化。

这个人什么时候出现、会不会出现，现在还说不准。但可以确定的是，在那之前，数据飞轮、域迁移能力和端侧部署工程，依然是决定胜负的关键。

精彩推荐

平均年龄不到25岁，清华博士团队凭什么让雷军独家押注？

为优必选、荣耀、智元代工，这家营收破500亿制造巨头即将赴港IPO

成立仅1年拿下数亿融资，深度机智凭什么让十余家机构集体下注？

当芯片长出手脚，3274亿市值的巨头快速切入具身智能

北大仉尚航团队提出 LaST-R1框架，机器人首次学会"边想边做"！

精彩文章

扫码手机阅读

世界模型到底在建模什么？

精彩推荐

关于我们

友情链接

商务合作