世界模型到底在建模什么?

李鑫2026-06-282827机器人技术及应用

2025到2026年,具身智能圈子里最热的词是“世界模型”,也是语义最混乱的词。这种混乱不是学术上的分歧,而是整个行业在概念都没对齐的情况下,已经开始大规模投入算力、资金和研究资源。



 

世界模型到底在建模什么?这个问题目前没有统一答案。 有人在建模视觉序列的统计规律,有人在建模抽象特征空间的物理常识,有人在建模动作和状态的联合分布。

2026年6月,李飞飞把世界模型拆成三类:渲染器(生成画面)、仿真器(模拟物理状态)、规划器(输出动作)。这个拆分揭示了一个关键问题,不同技术路线在解决完全不同的问题,但可以包装成同一个故事对外讲。

01.

三条路线各自在做什么?

Open AI的Sora是渲染器路线的代表。核心思路是:把几百亿小时的互联网视频作为训练数据,让模型通过逐帧预测像素来学习物理规律。问题在于,像素预测本质上是学习视觉序列的统计规律,而不是物理因果结构。



 

LeCun反复强调的现象确实存在:Sora生成的玻璃杯碰地不碎、人的手臂穿过椅背,这类“物理幻觉”反复出现。NVIDIA的Cosmos3用两千万小时视频做预训练,规模是Sora的数倍,但物理一致性问题依然没有根本解决。值得注意的是,Cosmos也开始向世界状态预测方向转,这说明纯渲染路线的局限已经被NVIDIA自己意识到了。



 

LeCun团队的V-JEPA系列走了不同方向:放弃像素重建,在抽象特征空间里学习物理常识。V-JEPA 2用百万小时视频做自监督预训练,只用62小时机器人数据微调就让机械臂实现了零样本抓取陌生物体。数据效率确实高,但代价是空间细节的丢失,抽象特征空间很难保留毫米级的精细操作所需的空间信息。



 

NVIDIA的DreamZero是动作驱动路线,140亿参数的视频扩散骨干联合预测未来状态和动作序列,零样本泛化比纯VLA模型高出2倍。工程难点在推理效率,7Hz的实时闭环控制在实验室里勉强可用,在机器人本体等边缘设备上还需要大幅优化。

RWTH亚琛和代尔夫特理工大学2026年3月的综述指出了一个核心矛盾:视觉保真度的提升和开环精度的改善,并不等于更安全的闭环行为。画面越来越像,不代表理解越来越深,Sora的画面质量在进步,但物理世界理解能力的进步速度远远跟不上。

02.

数据困局比技术路线更致命

技术路线的差异是表象,数据问题才是更深层的死结。

世界模型面临一个三角困局:真实交互数据稀缺且昂贵,仿真数据有sim-to-real域差距,合成数据会导致模型崩溃。Nature发表的“模型崩溃”研究给出了明确结论:用模型生成的合成数据训练下一代模型,性能会不可逆地退化。



 

具身智能场景的数据问题有其特殊性。全球真实工作场景运行的机器人数量仍然很少,这是一个难以快速扩展的数据基础。机器人预训练需要的第一人称视角操作视频,这类数据在互联网上几乎爬不到。泛化性是另一个难题:在100个家庭采集的数据能否泛化到10000个家庭?如果不能,采集规模需要达到什么量级?这些问题目前没有明确答案,只能靠大量投入试错。



 

智元机器人2026年6月开源的AGIBOT WORLD2026数据集有个值得注意的细节:GE 2.0在训练中主动利用了大量“失败数据”,抓取空手、物体滑落、动作偏差等非理想轨迹。这个思路指向一个根本问题:完美的仿真数据教不会机器人应对失败,而真实世界充满了失败。智元选择正视失败数据而不是只用成功案例训练,是在数据策略上的务实转变。

NVIDIA的“计算即数据”范式可以用11小时生成78万条轨迹,效率惊人,但这些仿真轨迹和真实物理世界的差距有多大,目前缺乏公开的系统性评估。数量不等于质量。

03.

长时序预测:架构层面的局限

长时序预测的误差累积问题至今没有实质突破。DeepMind的Genie 2号称可以生成长时间连贯的3D交互环境,但实际运行超过几分钟场景就开始漂移,体悬浮、重力方向偏转、物体凭空出现又消失。这个问题从2018年Ha和Schmidhuber提出世界模型经典架构至今,一直是核心痛点。



 

这不是算力问题,是架构的内在局限。对于需要长时间稳定运行的具身智能任务,比如一个机器人完成20分钟的家务流程,或者在工厂产线上持续作业,误差累积意味着模型预测会逐渐偏离真实物理状态,最终导致动作规划失效。目前的主流做法是用频繁的真实观测来校正预测偏差,但这又回到了对感知系统的依赖,世界模型的“预测未来”能力被大打折扣。

04.

参数规模不是关键

2026年5月CVPR的WorldArena评测出了一个让很多人意外的结果:智元的GE 2.0仅用20亿参数,以68.26分的综合得分在Track 1赛道力压谷歌、英伟达等14支顶尖团队拿了第一,而且没有针对赛题做任何特殊优化。20亿参数打赢140亿参数,七分之一的规模胜出。

在具身智能的具体场景里,仿真精度和规划效率比参数规模重要得多。参数堆量不是万能药,这件事在大语言模型领域已经被验证过了,在世界模型上会再次被验证。更小的模型意味着更低的推理延迟、更少的能耗、更容易的边缘部署,这些在实际应用中的价值,远超benchmark上几个点的提升。

05.

即便如此,市场仍在加速

技术路线有局限,数据困局无简单解,长时序预测有架构瓶颈,但这些并没有阻止行业的大规模投入。因为在具身智能这个赛道上,先发优势依然决定性。

世界模型创业公司真正的护城河有三样:

垂直场景的数据飞轮。 机器人有遥操作数据,工业装配有产线数据。这些数据天然具有排他性,互联网上爬不到。谁先在一个垂直场景里把数据闭环跑通,后来者的追赶难度就会指数级上升。数据飞轮一旦转起来,技术上的小幅领先会被数据优势放大成巨大的壁垒。



 

仿真到真实的域迁移工程能力。 这不是论文里刷榜的指标,而是真机部署后的实际成功率。谁能在sim-to-real gap上做出实质突破,谁就掌握了工业界最稀缺的能力。智元用“失败数据”的思路值得关注:不是追求更逼真的仿真,而是追求更真实的失败场景覆盖。这种务实的思路,比追求视觉保真度更接近工业落地的真实需求。



 

端侧部署的工程能力。 世界模型最终要在机器人本体上运行。20亿参数跑在边缘设备和140亿参数跑在云服务器,是完全不同的工程挑战。轻量化不是简单剪枝,而是从架构设计阶段就把边缘部署约束考虑进去。能把模型塞进功耗受限、算力有限的机器人本体,这本身就是护城河。

06.

评测标准:谁定义规则,谁就有话语权

还有一个被很多人忽略的点:评测标准。目前世界模型没有公认的benchmark,视频质量用PSNR和SSIM,物理一致性用人类评分,机器人操作成功率每家用不同任务集,论文里的数字互相不可比。

CVPR 2026上的WorldArena是一次有意义的尝试,但覆盖面和权威性还远不够。谁先定义出行业认可的评测标准,谁就掌握了话语权,这和当年ImageNet之于计算机视觉的意义类似。标准的制定权,本身就是一种护城河。

07.

突破会来自哪里?

各条技术路线的收敛时间,业内大致预计在2027年到2028年之间。李飞飞的判断是,渲染器、仿真器、规划器三者底层知识同源(几何、物理、动力学),终极形态是能灵活切换输出形式的统一世界基础模型。这个判断有其逻辑,但“知识同源”不等于“同一套架构能把所有事情做好”,大语言模型的演进已经教过我们这个道理。

2026年上半年的世界模型论文,争论越来越细,框架越来越像。这是技术成熟前的典型状态,也可能是重大突破前的平静期。突破更可能来自对基础问题的重新思考,比如“机器怎么理解物理世界”这个根问题,而不是在现有路线上的渐进优化。

这个人什么时候出现、会不会出现,现在还说不准。但可以确定的是,在那之前,数据飞轮、域迁移能力和端侧部署工程,依然是决定胜负的关键。