VLA在汽车里能活，在机器人里必死？小鹏和Jim Fan的路线之争本质是什么？

2026-06-17100000人工智能（AI）

2026年，“物理AI”突然成为行业高频词。黄仁勋在GTC台北2026提出Cosmos 3框架，吴新宙称自动驾驶与具身智能同属物理AI，媒体随即把三者打包成“层层递进、深度融合”的叙事。但真实情况并非如此。

物理AI本质上不是一个技术路径，而是一个赛道容器，它装着两个差异极大的方向：一个是已在高速公路上跑出百万公里的自动驾驶，另一个是还在实验室里反复摔杯子的具身机器人。两者共享“AI进入物理世界”这一目标，却在核心架构上渐行渐远。

小鹏在CVPR 2026推出X-Foresight，把世界模型直接嵌进VLA架构；Jim Fan在AI Ascent主旨报告被媒体解读《VLA已死，WAM当立》；丁文超在ICRA 2026更明确将VLA划为“1.0时代”，称其“本质是VLM泛化能力的误植”。

分歧不在术语，而在任务本质：开车是毫秒级预判，机器人是长周期决策。前者靠历史轨迹外推，后者靠物理关系推理。强行合并在一个“物理AI”名下，只会模糊真正的问题，我们究竟是要一个能开好车的系统，还是一个能应付未知环境的通用体？

PART 01

世界模型真能替代仿真器，还是只是另一个数据黑箱？

世界模型被普遍视为当前最确定的技术支点。它的目标很朴素：像人类司机那样，看到球滚上马路，脑中瞬间模拟“孩子可能跟着冲出”。这不是生成视频，而是构建轻量级物理仿真能力。

丁文超在ICRA 2026说：“仿真器难以规模化，而数据驱动的世界模型能同时输出未来状态与动作后果，具备scaling潜力。”

这话有依据。手工仿真依赖工程师建模，成本高、覆盖窄；世界模型从真实传感器流中学习，理论上可随数据增长持续逼近现实。

小鹏的X-World模块已实现以动作为条件的多摄像头可控生成，X-Foresight则将长时序推演内嵌至VLA内部，使模型能在200ms内推演变道后三辆车的轨迹变化。但问题在于：世界模型的“可解释性锚点”功能尚未在量产系统中验证。端到端模型出错时，回放世界模型内部模拟是否真能定位到是感知偏差、动力学误判，还是目标函数失准？目前案例仍集中于演示场景。

更关键的是，高质量长时序、多模态对齐的数据极度稀缺。X-World虽能生成内容，但生成轨迹与真实物理规律的偏差仍需人工校验。世界模型的价值不在于概念新颖，而在于它能否在真实事故复盘中替代人工查日志，这一步，尚未跨出实验室。

PART 02

VLA在机器人领域还有没有生存空间？

VLA的困境不是性能不足，而是结构错配。它把VLM当主干，动作仅作为“头”附加其后。结果语言部分吃掉90%以上算力与数据，动作部分长期欠训练。

Jim Fan一语点破：“这些模型实为LVA，语言是第一级市民，视觉和行动只是配角。”

把VLA模型放到Taylor Swift照片上能泛化，靠的是VLM的文本能力，与机器人需要的“拿起陌生杯子不打翻”毫无关系。

丁文超更直白：“遥操作数据有天然上限，无法支撑通用具身模型的预训练。”

这已是业内共识。

但小鹏的立场不能简单否定：在自动驾驶中，人类指令（如“变道”）高频、明确，VLA作为意图接口效率极高；世界模型负责推演变道后的车流变化，二者分工清晰。

问题出在有人把汽车方案当成通用解。机器人面对陌生厨房时，没有清晰指令可接收，VLA的“翻译”逻辑立刻失效。WAM（World Action Model）的提出，正是要把视觉与动作从语言附庸中解放出来，让模型直接学“看到什么就该做什么”。

这条路更难，但若想跳出遥操作陷阱，别无他法。VLA不是被“融合”掉的中间态；它在具身领域大概率会被取代，在汽车领域则可能以“被世界模型增强”的形态延续。

PART 03

自动驾驶与具身智能，最终会共享同一套基座吗？

答案是否定的，且分歧正在固化。小鹏的X-Foresight把世界模型缝进VLA内部，本质是为VLA注入物理直觉，而非替换它。该方案适配汽车场景：任务时间短、动作空间小、安全冗余高。

但具身机器人要处理的是开门→取物→避障→放置这类长步骤任务，每步都涉及未见过的物体交互。VLA的意图依赖在此完全失效，世界模型也难以单靠视频生成覆盖所有物理组合。

石智航转向Ego-centric数据+ WAM，正是承认：机器人需要的是第一人称的动作-感知联合建模，而非第三人称的语言转译。

黄仁勋的Cosmos 3把三者塞进一个框架，听起来完整，实际落地时要么妥协（如小鹏的缝合方案），要么分家（如Jim Fan彻底转向WAM）。没有统一基座，只有适配任务的最小可行架构。物理AI的进展不靠融合，靠拆解，把“物理”二字落到实处，先分清是车在动，还是人在动。

PART 04

结语与未来

行业当前最需警惕的，是用战略话术掩盖技术分歧。“层层递进、深度融合”这类表述，是事后补的体面叙事，对正在做这件事的人没有帮助。

真实情况是：世界模型作为物理仿真引擎，几乎肯定会留存并强化；VLA在机器人领域已显露结构性天花板；而自动驾驶与具身智能，正沿着各自任务特性，走向两条不同的技术路径。

三年后回看，今天所谓“物理AI统一赛道”的提法，很可能只是一段过渡期的修辞。技术演进从不温顺铺陈，它总在争议与分裂中决出胜负，这次也不例外。

精彩推荐

平均年龄不到25岁，清华博士团队凭什么让雷军独家押注？

为优必选、荣耀、智元代工，这家营收破500亿制造巨头即将赴港IPO

成立仅1年拿下数亿融资，深度机智凭什么让十余家机构集体下注？

当芯片长出手脚，3274亿市值的巨头快速切入具身智能

北大仉尚航团队提出 LaST-R1框架，机器人首次学会"边想边做"！

精彩文章

扫码手机阅读

VLA在汽车里能活，在机器人里必死？小鹏和Jim Fan的路线之争本质是什么？

精彩推荐

关于我们

友情链接

商务合作