李飞飞生成世界,杨立昆提取世界:为何"世界模型"指向了两个方向?

2026-06-181000人工智能(AI)

世界模型这词现在用得太多,反而模糊了真正的问题。李飞飞和杨立昆都在做“世界模型”,但两人说的压根不是一回事。

Image
 

一个想把世界做成可编辑的3D对象,一个想让机器在内部模拟世界的状态变化。这不是路线之争,是问题定义的错位。要理清,得先问清楚:他们各自试图解决的,究竟是什么层次的问题?

 

PART 01

李飞飞的“空间智能”,到底是要解决哪类实际需求?

 

她从ImageNet开始,就盯着视觉系统如何理解物体;后来转向机器人,关注如何让机械臂在真实环境中抓取、移动;现在创办World Labs,提“3D as code”,核心没变:让机器能操作空间,而不是只描述它。

她不纠结“智能本质”,而是看现实里谁卡住了——影视、游戏、建筑行业做3D内容太慢,成本太高,一个场景改三遍,美术得重画三次。

Image
 

World Labs的Marble工具,输入一段文字或草图,直接生成结构一致、光照连贯的3D环境,用户拿过去就能进Blender或Unreal继续调。这不是为了炫技,是把生成结果嵌进已有生产流里,让“世界”变成可检查、可组合、可执行的工程对象。

Image
 

她招的人,多半是图形学和计算机视觉背景,熟悉几何约束、渲染管线、多视角一致性。这些人不靠哲学吃饭,靠的是解决像素级误差、避免穿模、保证边界连续。

他们接受模型不理解牛顿定律,只要生成的房间不会因为视角一转就塌掉,人能在里面走一圈不穿墙,就算过关。这路径的合理性在于:它不追求“完全正确”,而追求“足够可用”。就像早期图像识别,ImageNet模型分不清泰迪熊和豪猪,但只要在多数场景下不误判,就能进手机相册做自动分类。

Image
 

但问题也明摆着:生成的场景再逼真,机器也不知道门能不能推开,抽屉拉出来会不会掉,人踩在地板上会不会响。它提供的是静态结构,不是动态行为。当任务从“展示”转向“交互”,比如让机器人进去找钥匙,这套东西立刻显出短板,它没建模力、没模拟碰撞响应,只保证视觉上不穿帮。

 

PART 02

杨立昆的“世界模型”,真能替代生成式方法吗?

 

他从2017年就推自主机器智能(AMI),核心是:智能体必须能在内部预测“如果我这么做,世界会怎样”。他反对把世界模型理解成3D渲染器。

在他看来,开车时人脑不需要重建路灯的纹理,只需要知道前车距离、加速度、可能的制动概率,以及自己踩油门后相对位置会怎么变。

Image
 

因此他坚持用JEPA,联合嵌入预测架构:两个编码器分别处理当前观测和目标状态,预测器在压缩后的表征空间里推演未来,不碰原始像素。

Image
 

这路线的优势是省算力、抓重点。像素级生成要预测每一帧的噪点、反光、抖动,而JEPA只学那些可预测的结构变量,比如物体位置、速度、接触关系。它不为人类眼睛服务,为规划模块服务。

在医疗场景里,这种设计更显必要:FDA要求决策过程可解释、可追溯,大语言模型那种“概率幻觉”行不通。AMI Labs与Nabla合作的临床助手,目标是基于患者生理参数建模,预测病情演化路径,而不是编一段听起来像医生的话。这解释了为何法国政府愿意背书,高监管领域需要的是确定性推理,不是语言流畅度。

但这条路的瓶颈也很实在。抽象表征怎么来?物理常识能否仅靠视频自监督学会?目前没有可靠方案。杨立昆自己也承认,如何让模型在不预设几何规则的前提下,内化足够强的因果结构,仍是开放问题。

更麻烦的是,它缺乏直观反馈:生成一张图,人一眼能看出错在哪;但一个内部表征空间的偏差,可能要等到机器人撞墙才暴露。这导致它难以快速迭代,产品化周期远长于构造路径。

 

PART 03

两条路真能融合,还是只是互相借用?

 

有人讲“World Labs生成数据喂给JEPA,JEPA增强生成的物理合理性”,听起来合理,实则模糊了分工边界。生成模型输出的是几何结构,JEPA需要的是状态变量;前者是空间坐标、纹理、法线,后者是速度、力、接触概率。直接喂原始3D数据给JEPA,就像拿CAD图纸去训练驾驶模型,格式不匹配,语义不对应。

真正的协同只在特定环节存在:比如用World Labs生成的高保真仿真环境训练机器人策略,此时3D场景是“沙盒”,而控制策略仍依赖内部世界模型做实时预测。但沙盒本身不等于模型。AME Labs的临床助手用不到Marble生成的房间,Nabla的医生助手也不需要3D导航。它们服务的场景不同,输入输出格式不同,评估标准不同,一个看用户是否愿付费续订,一个看预测误差是否低于临床阈值。

融合的前提是统一接口。目前没有。3D as code的“code”是结构化网格与材质,JEPA的“code”是嵌入向量与能量函数。前者进Unity,后者进规划器。强行拼接,只会造出一个既不能高效生成、又不能可靠预测的中间态。

 

PART 04

为什么选择路径,其实取决于你手里的问题?

 

World Labs在硅谷落地快,因为它的客户明确:游戏公司、建筑可视化团队、工业设计部门,他们要的是缩短从草图到原型的时间。李飞飞的路径回应的是“效率瓶颈”,解决方案是工程适配,用现有工具链能接住的输出形式。

AMI Labs在巴黎推进,靠的是制度缝隙:欧洲对高风险AI的严格审查,反而给可解释、非黑箱的模型留出空间。杨立昆押注的是“合规红利”,当医疗、工业控制等领域拒绝LLM时,他的世界模型才有入场机会。他不追求通用,而追求在关键场景里不可替代。

这不是谁更“高级”,而是谁更贴合约束。做自动驾驶仿真,可能先用生成式建环境,再用JEPA做决策;做手术导航,直接上内部建模,根本不需要3D漫游。技术没有统一最优解,只有场景适配解。

世界模型的真正价值,不在复刻世界,而在让机器在特定任务中少犯错、多预判。李飞飞让机器能“进入”世界,杨立昆让机器能“应对”世界。前者解决入口问题,后者解决行动问题。两者之间没有高低,只有先后与分工。