VLA在汽车里能活,在机器人里必死?小鹏和Jim Fan的路线之争本质是什么?

2026-06-17100000人工智能(AI)

2026年,“物理AI”突然成为行业高频词。黄仁勋在GTC台北2026提出Cosmos 3框架,吴新宙称自动驾驶与具身智能同属物理AI,媒体随即把三者打包成“层层递进、深度融合”的叙事。但真实情况并非如此。

Image
 

物理AI本质上不是一个技术路径,而是一个赛道容器,它装着两个差异极大的方向:一个是已在高速公路上跑出百万公里的自动驾驶,另一个是还在实验室里反复摔杯子的具身机器人。两者共享“AI进入物理世界”这一目标,却在核心架构上渐行渐远。

Image
 

小鹏在CVPR 2026推出X-Foresight,把世界模型直接嵌进VLA架构;Jim Fan在AI Ascent主旨报告被媒体解读《VLA已死,WAM当立》;丁文超在ICRA 2026更明确将VLA划为“1.0时代”,称其“本质是VLM泛化能力的误植”。

分歧不在术语,而在任务本质:开车是毫秒级预判,机器人是长周期决策。前者靠历史轨迹外推,后者靠物理关系推理。强行合并在一个“物理AI”名下,只会模糊真正的问题,我们究竟是要一个能开好车的系统,还是一个能应付未知环境的通用体?

 

PART 01

世界模型真能替代仿真器,还是只是另一个数据黑箱?

 

世界模型被普遍视为当前最确定的技术支点。它的目标很朴素:像人类司机那样,看到球滚上马路,脑中瞬间模拟“孩子可能跟着冲出”。这不是生成视频,而是构建轻量级物理仿真能力。

Image
 

丁文超在ICRA 2026说:“仿真器难以规模化,而数据驱动的世界模型能同时输出未来状态与动作后果,具备scaling潜力。”

这话有依据。手工仿真依赖工程师建模,成本高、覆盖窄;世界模型从真实传感器流中学习,理论上可随数据增长持续逼近现实。

Image
 

小鹏的X-World模块已实现以动作为条件的多摄像头可控生成,X-Foresight则将长时序推演内嵌至VLA内部,使模型能在200ms内推演变道后三辆车的轨迹变化。但问题在于:世界模型的“可解释性锚点”功能尚未在量产系统中验证。端到端模型出错时,回放世界模型内部模拟是否真能定位到是感知偏差、动力学误判,还是目标函数失准?目前案例仍集中于演示场景。

更关键的是,高质量长时序、多模态对齐的数据极度稀缺。X-World虽能生成内容,但生成轨迹与真实物理规律的偏差仍需人工校验。世界模型的价值不在于概念新颖,而在于它能否在真实事故复盘中替代人工查日志,这一步,尚未跨出实验室。

 

PART 02

VLA在机器人领域还有没有生存空间?

 

VLA的困境不是性能不足,而是结构错配。它把VLM当主干,动作仅作为“头”附加其后。结果语言部分吃掉90%以上算力与数据,动作部分长期欠训练。

Jim Fan一语点破:“这些模型实为LVA,语言是第一级市民,视觉和行动只是配角。”

把VLA模型放到Taylor Swift照片上能泛化,靠的是VLM的文本能力,与机器人需要的“拿起陌生杯子不打翻”毫无关系。

Image
 

丁文超更直白:“遥操作数据有天然上限,无法支撑通用具身模型的预训练。”

这已是业内共识。

但小鹏的立场不能简单否定:在自动驾驶中,人类指令(如“变道”)高频、明确,VLA作为意图接口效率极高;世界模型负责推演变道后的车流变化,二者分工清晰。

问题出在有人把汽车方案当成通用解。机器人面对陌生厨房时,没有清晰指令可接收,VLA的“翻译”逻辑立刻失效。WAM(World Action Model)的提出,正是要把视觉与动作从语言附庸中解放出来,让模型直接学“看到什么就该做什么”。

这条路更难,但若想跳出遥操作陷阱,别无他法。VLA不是被“融合”掉的中间态;它在具身领域大概率会被取代,在汽车领域则可能以“被世界模型增强”的形态延续。

 

PART 03

自动驾驶与具身智能,最终会共享同一套基座吗?

 

答案是否定的,且分歧正在固化。小鹏的X-Foresight把世界模型缝进VLA内部,本质是为VLA注入物理直觉,而非替换它。该方案适配汽车场景:任务时间短、动作空间小、安全冗余高。

但具身机器人要处理的是开门→取物→避障→放置这类长步骤任务,每步都涉及未见过的物体交互。VLA的意图依赖在此完全失效,世界模型也难以单靠视频生成覆盖所有物理组合。

石智航转向Ego-centric数据+ WAM,正是承认:机器人需要的是第一人称的动作-感知联合建模,而非第三人称的语言转译。

黄仁勋的Cosmos 3把三者塞进一个框架,听起来完整,实际落地时要么妥协(如小鹏的缝合方案),要么分家(如Jim Fan彻底转向WAM)。没有统一基座,只有适配任务的最小可行架构。物理AI的进展不靠融合,靠拆解,把“物理”二字落到实处,先分清是车在动,还是人在动。

 

PART 04

结语与未来

 

行业当前最需警惕的,是用战略话术掩盖技术分歧。“层层递进、深度融合”这类表述,是事后补的体面叙事,对正在做这件事的人没有帮助。

真实情况是:世界模型作为物理仿真引擎,几乎肯定会留存并强化;VLA在机器人领域已显露结构性天花板;而自动驾驶与具身智能,正沿着各自任务特性,走向两条不同的技术路径。

三年后回看,今天所谓“物理AI统一赛道”的提法,很可能只是一段过渡期的修辞。技术演进从不温顺铺陈,它总在争议与分裂中决出胜负,这次也不例外。