B轮3.1亿美元！估值14.5亿美元！亚马逊、AMD为何重金押注这家世界模型独角兽？

2026-06-252具身智能

2026年6月17日，成立不到三年的世界模型AI初创公司Odyssey宣布完成3.1亿美元B轮融资，投后估值达14.5亿美元，正式跨入独角兽行列。本轮融资由Natural Capital领投，亚马逊、AMD Ventures、GV、EQT及CIA关联基金In-Q-Tel等机构跟投，天使投资人包括谷歌Jeff Dean、Y Combinator前CEO Garry Tan、Cruise创始人Kyle Vogt等硅谷重量级人物。至此，Odyssey累计融资总额达3.37亿美元。

在完成A轮融资后不久,Odyssey就在B轮宣布AWS成为其首选云服务提供商,并将旗下模型针对亚马逊自研的Trainium芯片进行专项优化。这个动作背后,是世界模型赛道在算力路线上的一次明确表态。

PART 01

自动驾驶老兵为什么转向做机器人的“眼睛”?

Odyssey的两位创始人Oliver Cameron和Jeff Hawke都来自自动驾驶领域。

Cameron曾联合创办自动驾驶初创公司Voyage,被通用汽车旗下Cruise收购后出任产品副总裁;Hawke此前在英国自动驾驶初创公司Wayve担任工程师。

在自动驾驶行业深耕多年后，两人发现了一个根本问题：让机器理解物理世界，比让它理解人类语言更困难，也更关键。GPT-4可以写出一篇完美的物理学论文，却无法推理出一杯水从桌边推下会发生什么。LLM学的是token之间的统计规律，但机器人、自动驾驶汽车需要的是对物理世界因果关系的理解，重力如何作用、光线如何折射、物体碰撞会产生什么后果。

这个洞察让他们在2023年创办Odyssey，专注于世界模型，一种让机器通过学习物理世界数据来理解环境的技术路线。对具身智能来说，世界模型就是让机器人“看懂”现实世界的基础设施。一个扫地机器人需要理解地毯和瓷砖的质感差异，一个仓储机器人需要预判货架倒塌的风险，一个人形机器人需要知道如何在不同材质的地面上保持平衡，这些都依赖对物理规则的精准建模。

Odyssey选择的技术路线是交互式视频流。公司相继发布了Starchild-1、Odyssey-2 Max、Agora-1、PROWL等世界模型,其中Starchild-1是首个实时多模态世界模型,用户可用文本或图片提示实时生成持续5分钟以上的连贯视频,并在观看过程中与画面互动。这不是预设路径的游戏demo,而是在每一帧根据输入预测物理世界下一状态的实时生成系统，本质上,这是在为机器人训练一个能预测行动后果的"物理直觉"。

PART 02

为什么要让人背着摄像头走遍世界？

LLM的训练数据来自互联网文本，获取成本相对可控。但世界模型需要的是物理世界的视觉数据，地面的抖动、树叶的反光、水泥路的质感、海水的波动。这些信息在互联网上并不存在，只能实地采集。Odyssey借鉴了Google Earth的思路，但做了一个关键改动：不用街景车，改用真人步行采集。数据采集员背着摄像头在城市、森林、海边徒步，记录最真实的物理世界影像。

这个看似笨拙的方法，对具身智能来说却至关重要。街景车拍摄的是车辆高度的视角，但机器人和人类的活动高度完全不同。当一个家庭服务机器人需要学习如何走进咖啡馆、如何在人群中穿行、如何在狭窄走廊转身时，它需要的是人类行走时的视角数据，台阶的高度、门框的宽度、地面材质的变化，这些细节决定了机器人能否在真实环境中流畅移动。

这种方式在保证数据质量的同时，也对资金和时间提出了更高要求。每一公里路径都需要真人去走，这解释了为什Odyssey成立至今累计融资3.37亿美元，其中大部分将用于数据采集和算力投入。相比之下，Google DeepMind和World Labs可以借助已有的搜索引擎和地图数据生态获得天然优势，Runway的训练数据来自互联网视频，边际成本低得多。

数据采集的重资产特征，正在把世界模型赛道变成一场资本耐力赛。在这个赛道里，13个月投入3亿美元并不稀奇，这是为机器人构建物理认知的必要成本。

PART 03

算力成本如何左右世界模型公司的生死？

Odyssey的融资轨迹暴露了AI芯片市场的结构性变化。Nvidia在AI训练芯片市场仍占据约63%的份额，但其GPU的高昂价格，H100约3万美元/颗，已经成为AI初创公司的沉重负担。对需要海量算力的世界模型公司来说，算力成本的微小差异就是生存问题。亚马逊的Trainium 3芯片基于台积电3nm工艺，在MXFP8精度下单颗算力达到2.517 PFLOPS，配备144GB HBM3e显存。据亚马逊在re:Invent公布的数据及Uber 2026年4月签约案例分析，Trainium 3的算力成本仅为Nvidia H100/H200的30%—50%。对于Odyssey这类需要持续训练世界模型的公司而言，这意味着50%到70%的成本缩减空间。Odyssey的站队并非个例。Uber在2026年4月7日与AWS签署了大规模Trainium部署协议，将实时

匹配司机调度等核心负载迁移到亚马逊自研芯片上。Anthropic在Project Rainier中部署了超过100万个Trainium加速器。

PART 04

交互式视频流能成为具身智能的标准答案吗？

世界模型赛道目前至少有五条主要技术路线在并行推进：Google DeepMind的Genie 3走Transformer路线，可生成720p、24fps的可导航3D世界；李飞飞创办的World Labs强调空间智能和3D几何理解，累计融资超10亿美元、估值50亿美元，其Marble应用允许用户从文本、图片生成可探索的3D空间；Runway从视频生成切入世界模型，2026年Q2单季贡献4000万美元年化收入增量，公司估值53亿美元。

Odyssey选择的交互式视频流是一种介于游戏引擎和视频生成之间的中间态。这个位置的优势在于更贴近具身智能的实际需求，机器人需要的不是一个静态的3D场景，也不是一段预渲染的视频，而是能根据自身动作实时预测环境变化的能力。当机器人伸手去抓一个杯子时，世界模型需要实时生成手臂移动过程中的视觉反馈、预测杯子被抓起后的物理状态、判断桌面其他物体会不会受到影响。而商业模式正在探索验证阶段。World Labs走的是3D空间生成路线，面向游戏和元宇宙市场；Runway依靠内容创作者市场反哺研发；Odyssey的交互式视频流正从技术演示向商业落地推进。创始人Oliver Cameron在公告中提到要实现“世界模型领域的GPT-3时刻”，具身智能市场的爆发点仍在探索中，这正是Odyssey这类先行者的机会所在。机器人赛道在2026年正处于一个关键的时间窗口：技术突破频频传出，商业场景正在逐步清晰。特斯拉的Optimus、Figure AI的人形机器人、Boston Dynamics的Spot，都在通过demo展示能力的同时探索规模化部署的路径。Odyssey赌的是，当具身智能真正起飞时，交互式视频流会成为机器人训练的基础设施，就像ImageNet之于计算机视觉、Common Crawl之于大语言模型。

在具身智能市场爆发之前，Odyssey正在用这3.1亿美元构建从技术到商业的完整路径。世界模型或许真的是通往AGI的必由之路，而Odyssey的长期价值取决于具身智能市场的成熟节奏，公司正在为这个时间窗口做充分准备。让机器理解物理世界，比让它理解人类语言更困难，也更关键。Odyssey赌的是：最懂物理世界的方法，是一步步走出来的。

精彩推荐

平均年龄不到25岁，清华博士团队凭什么让雷军独家押注？

为优必选、荣耀、智元代工，这家营收破500亿制造巨头即将赴港IPO

成立仅1年拿下数亿融资，深度机智凭什么让十余家机构集体下注？

当芯片长出手脚，3274亿市值的巨头快速切入具身智能

北大仉尚航团队提出 LaST-R1框架，机器人首次学会"边想边做"！

精彩文章

扫码手机阅读

B轮3.1亿美元！估值14.5亿美元！亚马逊、AMD为何重金押注这家世界模型独角兽？

精彩推荐

关于我们

友情链接

商务合作