当世界模型从「理解语言」进化为「理解物理世界」,英伟达正在用一套完整的生态体系,重新定义机器人与自动驾驶时代的算力基础设施角色。
但这场宏大叙事之下,数据鸿沟、仿真精度与商业落地之间的张力,依然值得深思。
![]()
01.
Cosmos 3:新的物理世界操作系统
6月1日,英伟达宣布可在Hugging Face上下载Cosmos 3 ,并借助GitHub上的资源定制模型并生成合成数据。从官方表述来看,这一举动被定性为「在物理AI基准测试上取得了领先的结果」,其涵盖视觉推理、图像生成、世界生成、物理精准度与机器人动作生成五大维度。
但如果将其理解为一次常规的模型迭代,大讲堂认为,明显低估了英伟达的战略野心。
Cosmos 3的核心基于NVIDIA混合Transformer(Mixture-of-Transformers)架构,该架构融合了Transformer与扩散模型(Diffusion Model)两条技术路线:前者负责从指令、观察与动作的混合输入中进行推理与规划;后者则由前者驱动,负责生成「接下来会发生什么」。这一双引擎设计,使Cosmos从本质上超越了传统意义上的视觉语言模型(VLM),成为一个能够在时序维度上感知、预测并生成物理世界的「世界模型」。
更关键的是,英伟达为Cosmos赋予了四重功能身份。作为世界推理器(World Reasoner),它能从视频与文本中理解场景并做出判断;作为世界模型(World Model),它能生成具备物理精准度的合成训练数据;作为仿真器(Simulator),它能在闭环中测试机器人策略,展示动作结果并预测后续状态;而作为世界动作模型(World Action Model),它甚至能直接为不同机器人本体生成动作指令。
![]()
这四重身份并列共存,意味着Cosmos不是任何单一环节的工具,而是整个物理AI开发流程的基础设施层。英伟达的意图已经相当清晰:它要成为机器人时代的「操作系统」,而Cosmos就是这个操作系统的内核。
02.
从VLM到世界动作模型如何演进
世界动作模型的出现,是否意味着VLM将被取代?英伟达机器人业务负责人Spencer的回答,提供了一个理解当前AI架构演进的重要视角。
他的逻辑是,我们最初从语言模型出发,是因为语言是人类理解世界的语义接口,但机器人需要的是空间智能与动作智能,而非语言智能。VLM加上动作头(Action Head),诞生了VLA(视觉语言动作模型);在此基础上,加入对世界物理规律的建模,诞生了世界模型;最终,将视觉感知与动作生成真正置于同等优先级并融合,才得到世界动作模型。
这条进化链条非常清晰。LLM→VLM→VLA→World Model→World Action Model,这并非偶然涌现,而是一条被英伟达刻意规划的技术路径。因为其每一步都在拓展AI对「真实世界」的感知与干预能力,最终目的是形成一个感知世界、理解物理规律、生成动作、验证结果、迭代策略的闭环。
这一路径的战略意义在于,它为英伟达Omniverse(数字孪生平台)、Isaac(机器人开发平台)和Cosmos(世界模型)三大产品线,提供了一个统一的技术叙事框架。开发者无论是做仿真、训练还是部署,无论处于哪个环节,都能在英伟达的生态中找到对应工具,且这些工具之间有着清晰的协作关系与数据流转逻辑。
这种从底层算力、世界模型到开发框架的纵向整合能力,也正在使英伟达逐渐形成物理 AI 领域具有行业影响力的全栈生态优势。
03.
数据鸿沟才是真正的「大挑战」
如果说世界动作模型的概念令人兴奋,那么现实中「数据鸿沟」(Data Gap)的问题则让人清醒。英伟达Spencer在会议中坦言,机器人领域目前最大的挑战,依然是无法捕获每一种长尾场景。真实世界的边缘情况,既无法在现实中安全采集,又难以在仿真中精确还原。
针对这一核心矛盾,英伟达给出的答案是「Omniverse与Cosmos的共生」。这一判断相当务实,也相当微妙。因为Omniverse代表基于物理引擎的精确仿真,能够为特定场景提供有物理依据的数据;Cosmos则通过预训练学习物理动力学,能够生成大规模的多样化场景。两者不是替代关系,而是分工协作:Omniverse提供「物理锚点」,Cosmos提供「规模扩展」。
但这里存在一个尚未解决的深层矛盾,Cosmos模型的物理精度受限于预训练数据的覆盖范围。一个典型的案例是精细操作任务,例如电子产品的精密装配所需的物理精度,目前的世界模型尚未完全达到。Spencer的原话是:「我们没有足够的、已完整标注且覆盖所需技能与交互类型的预训练数据。」
这意味着,在高精度操作场景下,开发者仍然必须依赖传统仿真器(如Omniverse)来生成物理精确的训练数据,再将其喂给Cosmos以丰富其物理先验。这是一个循环依赖的结构,Cosmos需要Omniverse的数据来提升物理精度;而Omniverse的数据生产效率,又需要Cosmos的泛化能力来扩展场景多样性。
这种共生关系短期内无法被打破,但也恰恰成就了英伟达生态的护城河:两套系统的深度耦合,使得开发者很难只选其一,而舍弃另一个。
04.
把人形机器人的研究权还给大学
英伟达本次发布最具话题性的硬件产品,是英伟达与Unitree合作推出的参考人形机器人Unitree H2 Plus。
这款机器人身高约1.8米、体重约68公斤,搭载本体计算平台 NVIDIA Jetson Thor,预装1.7版本机器人模型,具备 Sharpa 五指灵巧手,并集成RGB摄像头与腕部传感器。
同时,英伟达宣布推出 NVIDIA Isaac™ GR00T 人形机器人参考平台,这是首款基于 NVIDIA Jetson Thor™ 和 NVIDIA Isaac™ GR00T 开放开发平台打造的开放人形机器人参考设计。
![]()
英伟达真正的战略意图,并不在于自己造机器人,而在于降低顶级人形机器人研究平台的准入门槛。Spencer的表述直白而有力:「把机器人研究从少数富有AI实验室的专属,还给全球所有大学研究者。」斯坦福、苏黎世联邦理工、加州大学圣地亚哥分校、艾伦人工智能研究所均已宣布采用该平台。
这一举措的产业逻辑十分清晰,当更多的大学研究团队基于英伟达的人形机器人开发全栈Isaac GR00T平台进行研究,就会有更多的模型、算法和数据在英伟达生态中生长;这些成果反过来又会加速Cosmos的预训练数据积累,填补上文所述的「数据鸿沟」。学术生态的开放,本质上是英伟达对自身数据飞轮的战略性投资。
目前Unitree H2 plus 的商业化路径通过海外分销商进行,定价尚未公布,预计2026年底面向商业客户开放。这意味着至少在未来一年内,该机器人仍以研究用途为主要场景,英伟达并不急于将其推向大规模商业部署。这种克制,恰恰体现了其「平台优先」而非「硬件优先」的一贯战略取向。
05.
结语与未来
综观英伟达在Cosmos、Isaac GR00T 平台等方向上的整体布局,一条清晰的战略主轴已经浮现:英伟达正在将自己从「AI芯片供应商」转型为「物理AI基础设施提供商」。它不再只是卖GPU,而是在出售一整套从数据生成、模型训练、仿真验证到边缘部署的完整工作流。
这一战略的成功,高度依赖于生态的网络效应:越多的开发者基于Omniverse生成数据、越多的研究者在Isaac平台上训练模型、越多的工厂在Fox框架下部署代理,整个Cosmos数据飞轮就转得越快,英伟达的技术护城河就越深。
但生态锁定是一把双刃剑。对于产业链上的参与者而言,深度接入英伟达平台带来的不仅是效率提升,还有日益增加的依赖风险。当「Cosmos成为行业基线」成为共识,当「Isaac GR00T成为人形机器人开发标准」,这些产业参与者必然未来一定程度强捆绑英伟达生态。
更值得关注的是,英伟达所有这些布局,最终都依赖于一个前提,那就是它能够持续维持算力层面的技术优势。一旦替代芯片架构在性能上形成实质竞争,当前以GPU算力为锚点构建起的整个生态体系,都将面临重新定价的压力。
物理AI的时代正在加速到来,英伟达的Cosmos生态或许是目前最完整、最系统的布局。但「最完整生态」与「最终胜出」之间的距离,从来不由技术路线图决定,而由真实落地中的每一个细节来丈量。未来会如何,人类依然在不断探索,而英伟达已经给出了他们的路线图。