李飞飞生成世界，杨立昆提取世界：为何"世界模型"指向了两个方向？

2026-06-181354人工智能（AI）

世界模型这词现在用得太多，反而模糊了真正的问题。李飞飞和杨立昆都在做“世界模型”，但两人说的压根不是一回事。

一个想把世界做成可编辑的3D对象，一个想让机器在内部模拟世界的状态变化。这不是路线之争，是问题定义的错位。要理清，得先问清楚：他们各自试图解决的，究竟是什么层次的问题？

PART 01

李飞飞的“空间智能”，到底是要解决哪类实际需求？

她从ImageNet开始，就盯着视觉系统如何理解物体；后来转向机器人，关注如何让机械臂在真实环境中抓取、移动；现在创办World Labs，提“3D as code”，核心没变：让机器能操作空间，而不是只描述它。

她不纠结“智能本质”，而是看现实里谁卡住了——影视、游戏、建筑行业做3D内容太慢，成本太高，一个场景改三遍，美术得重画三次。

World Labs的Marble工具，输入一段文字或草图，直接生成结构一致、光照连贯的3D环境，用户拿过去就能进Blender或Unreal继续调。这不是为了炫技，是把生成结果嵌进已有生产流里，让“世界”变成可检查、可组合、可执行的工程对象。

她招的人，多半是图形学和计算机视觉背景，熟悉几何约束、渲染管线、多视角一致性。这些人不靠哲学吃饭，靠的是解决像素级误差、避免穿模、保证边界连续。

他们接受模型不理解牛顿定律，只要生成的房间不会因为视角一转就塌掉，人能在里面走一圈不穿墙，就算过关。这路径的合理性在于：它不追求“完全正确”，而追求“足够可用”。就像早期图像识别，ImageNet模型分不清泰迪熊和豪猪，但只要在多数场景下不误判，就能进手机相册做自动分类。

但问题也明摆着：生成的场景再逼真，机器也不知道门能不能推开，抽屉拉出来会不会掉，人踩在地板上会不会响。它提供的是静态结构，不是动态行为。当任务从“展示”转向“交互”，比如让机器人进去找钥匙，这套东西立刻显出短板，它没建模力、没模拟碰撞响应，只保证视觉上不穿帮。

PART 02

杨立昆的“世界模型”，真能替代生成式方法吗？

他从2017年就推自主机器智能（AMI），核心是：智能体必须能在内部预测“如果我这么做，世界会怎样”。他反对把世界模型理解成3D渲染器。

在他看来，开车时人脑不需要重建路灯的纹理，只需要知道前车距离、加速度、可能的制动概率，以及自己踩油门后相对位置会怎么变。

因此他坚持用JEPA，联合嵌入预测架构：两个编码器分别处理当前观测和目标状态，预测器在压缩后的表征空间里推演未来，不碰原始像素。

这路线的优势是省算力、抓重点。像素级生成要预测每一帧的噪点、反光、抖动，而JEPA只学那些可预测的结构变量，比如物体位置、速度、接触关系。它不为人类眼睛服务，为规划模块服务。

在医疗场景里，这种设计更显必要：FDA要求决策过程可解释、可追溯，大语言模型那种“概率幻觉”行不通。AMI Labs与Nabla合作的临床助手，目标是基于患者生理参数建模，预测病情演化路径，而不是编一段听起来像医生的话。这解释了为何法国政府愿意背书，高监管领域需要的是确定性推理，不是语言流畅度。

但这条路的瓶颈也很实在。抽象表征怎么来？物理常识能否仅靠视频自监督学会？目前没有可靠方案。杨立昆自己也承认，如何让模型在不预设几何规则的前提下，内化足够强的因果结构,仍是开放问题。

更麻烦的是，它缺乏直观反馈：生成一张图，人一眼能看出错在哪；但一个内部表征空间的偏差，可能要等到机器人撞墙才暴露。这导致它难以快速迭代，产品化周期远长于构造路径。

PART 03

两条路真能融合，还是只是互相借用？

有人讲“World Labs生成数据喂给JEPA，JEPA增强生成的物理合理性”，听起来合理，实则模糊了分工边界。生成模型输出的是几何结构，JEPA需要的是状态变量；前者是空间坐标、纹理、法线，后者是速度、力、接触概率。直接喂原始3D数据给JEPA，就像拿CAD图纸去训练驾驶模型，格式不匹配，语义不对应。

真正的协同只在特定环节存在：比如用World Labs生成的高保真仿真环境训练机器人策略，此时3D场景是“沙盒”，而控制策略仍依赖内部世界模型做实时预测。但沙盒本身不等于模型。AME Labs的临床助手用不到Marble生成的房间，Nabla的医生助手也不需要3D导航。它们服务的场景不同，输入输出格式不同，评估标准不同，一个看用户是否愿付费续订，一个看预测误差是否低于临床阈值。

融合的前提是统一接口。目前没有。3D as code的“code”是结构化网格与材质，JEPA的“code”是嵌入向量与能量函数。前者进Unity，后者进规划器。强行拼接，只会造出一个既不能高效生成、又不能可靠预测的中间态。

PART 04

为什么选择路径，其实取决于你手里的问题？

World Labs在硅谷落地快,因为它的客户明确：游戏公司、建筑可视化团队、工业设计部门，他们要的是缩短从草图到原型的时间。李飞飞的路径回应的是“效率瓶颈”，解决方案是工程适配，用现有工具链能接住的输出形式。

AMI Labs在巴黎推进，靠的是制度缝隙：欧洲对高风险AI的严格审查，反而给可解释、非黑箱的模型留出空间。杨立昆押注的是“合规红利”，当医疗、工业控制等领域拒绝LLM时，他的世界模型才有入场机会。他不追求通用，而追求在关键场景里不可替代。

这不是谁更“高级”，而是谁更贴合约束。做自动驾驶仿真，可能先用生成式建环境，再用JEPA做决策；做手术导航，直接上内部建模，根本不需要3D漫游。技术没有统一最优解,只有场景适配解。

世界模型的真正价值，不在复刻世界，而在让机器在特定任务中少犯错、多预判。李飞飞让机器能“进入”世界，杨立昆让机器能“应对”世界。前者解决入口问题，后者解决行动问题。两者之间没有高低，只有先后与分工。

精彩推荐

这些展台没有机器人，却围满了找数据的人｜WAIC观察

WAIC 2026上的机器人形态大爆发！具身智能的“身体”，究竟该长什么样？

50亿融资，200亿估值，端侧智能领域又出了一家独家兽

WAIC 2026前瞻，具身智能最值得看的都在这儿了！（一）

税收数据“接住”资本热度，市场迎来“验收时刻”？

精彩文章

扫码手机阅读

李飞飞生成世界，杨立昆提取世界：为何"世界模型"指向了两个方向？

精彩推荐

关于我们

商务合作