2026年6月17日,成立不到三年的世界模型AI初创公司Odyssey宣布完成3.1亿美元B轮融资,投后估值达14.5亿美元,正式跨入独角兽行列。本轮融资由Natural Capital领投,亚马逊、AMD Ventures、GV、EQT及CIA关联基金In-Q-Tel等机构跟投,天使投资人包括谷歌Jeff Dean、Y Combinator前CEO Garry Tan、Cruise创始人Kyle Vogt等硅谷重量级人物。至此,Odyssey累计融资总额达3.37亿美元。
在完成A轮融资后不久,Odyssey就在B轮宣布AWS成为其首选云服务提供商,并将旗下模型针对亚马逊自研的Trainium芯片进行专项优化。这个动作背后,是世界模型赛道在算力路线上的一次明确表态。
PART 01
自动驾驶老兵为什么转向做机器人的“眼睛”?
Odyssey的两位创始人Oliver Cameron和Jeff Hawke都来自自动驾驶领域。
Cameron曾联合创办自动驾驶初创公司Voyage,被通用汽车旗下Cruise收购后出任产品副总裁;Hawke此前在英国自动驾驶初创公司Wayve担任工程师。

在自动驾驶行业深耕多年后,两人发现了一个根本问题:让机器理解物理世界,比让它理解人类语言更困难,也更关键。GPT-4可以写出一篇完美的物理学论文,却无法推理出一杯水从桌边推下会发生什么。LLM学的是token之间的统计规律,但机器人、自动驾驶汽车需要的是对物理世界因果关系的理解,重力如何作用、光线如何折射、物体碰撞会产生什么后果。

这个洞察让他们在2023年创办Odyssey,专注于世界模型,一种让机器通过学习物理世界数据来理解环境的技术路线。对具身智能来说,世界模型就是让机器人“看懂”现实世界的基础设施。一个扫地机器人需要理解地毯和瓷砖的质感差异,一个仓储机器人需要预判货架倒塌的风险,一个人形机器人需要知道如何在不同材质的地面上保持平衡,这些都依赖对物理规则的精准建模。

Odyssey选择的技术路线是交互式视频流。公司相继发布了Starchild-1、Odyssey-2 Max、Agora-1、PROWL等世界模型,其中Starchild-1是首个实时多模态世界模型,用户可用文本或图片提示实时生成持续5分钟以上的连贯视频,并在观看过程中与画面互动。 这不是预设路径的游戏demo,而是在每一帧根据输入预测物理世界下一状态的实时生成系统,本质上,这是在为机器人训练一个能预测行动后果的"物理直觉"。
PART 02
为什么要让人背着摄像头走遍世界?
LLM的训练数据来自互联网文本,获取成本相对可控。但世界模型需要的是物理世界的视觉数据,地面的抖动、树叶的反光、水泥路的质感、海水的波动。这些信息在互联网上并不存在,只能实地采集。Odyssey借鉴了Google Earth的思路,但做了一个关键改动:不用街景车,改用真人步行采集。数据采集员背着摄像头在城市、森林、海边徒步,记录最真实的物理世界影像。

这个看似笨拙的方法,对具身智能来说却至关重要。街景车拍摄的是车辆高度的视角,但机器人和人类的活动高度完全不同。当一个家庭服务机器人需要学习如何走进咖啡馆、如何在人群中穿行、如何在狭窄走廊转身时,它需要的是人类行走时的视角数据,台阶的高度、门框的宽度、地面材质的变化,这些细节决定了机器人能否在真实环境中流畅移动。
这种方式在保证数据质量的同时,也对资金和时间提出了更高要求。每一公里路径都需要真人去走,这解释了为什Odyssey成立至今累计融资3.37亿美元,其中大部分将用于数据采集和算力投入。相比之下,Google DeepMind和World Labs可以借助已有的搜索引擎和地图数据生态获得天然优势,Runway的训练数据来自互联网视频,边际成本低得多。
数据采集的重资产特征,正在把世界模型赛道变成一场资本耐力赛。在这个赛道里,13个月投入3亿美元并不稀奇,这是为机器人构建物理认知的必要成本。
PART 03
算力成本如何左右世界模型公司的生死?
Odyssey的融资轨迹暴露了AI芯片市场的结构性变化。Nvidia在AI训练芯片市场仍占据约63%的份额,但其GPU的高昂价格,H100约3万美元/颗,已经成为AI初创公司的沉重负担。对需要海量算力的世界模型公司来说,算力成本的微小差异就是生存问题。亚马逊的Trainium 3芯片基于台积电3nm工艺,在MXFP8精度下单颗算力达到2.517 PFLOPS,配备144GB HBM3e显存。据亚马逊在re:Invent公布的数据及Uber 2026年4月签约案例分析,Trainium 3的算力成本仅为Nvidia H100/H200的30%—50%。对于Odyssey这类需要持续训练世界模型的公司而言,这意味着50%到70%的成本缩减空间。Odyssey的站队并非个例。Uber在2026年4月7日与AWS签署了大规模Trainium部署协议,将实时
匹配司机调度等核心负载迁移到亚马逊自研芯片上。Anthropic在Project Rainier中部署了超过100万个Trainium加速器。
PART 04
交互式视频流能成为具身智能的标准答案吗?
世界模型赛道目前至少有五条主要技术路线在并行推进:Google DeepMind的Genie 3走Transformer路线,可生成720p、24fps的可导航3D世界;李飞飞创办的World Labs强调空间智能和3D几何理解,累计融资超10亿美元、估值50亿美元,其Marble应用允许用户从文本、图片生成可探索的3D空间;Runway从视频生成切入世界模型,2026年Q2单季贡献4000万美元年化收入增量,公司估值53亿美元。
Odyssey选择的交互式视频流是一种介于游戏引擎和视频生成之间的中间态。这个位置的优势在于更贴近具身智能的实际需求,机器人需要的不是一个静态的3D场景,也不是一段预渲染的视频,而是能根据自身动作实时预测环境变化的能力。当机器人伸手去抓一个杯子时,世界模型需要实时生成手臂移动过程中的视觉反馈、预测杯子被抓起后的物理状态、判断桌面其他物体会不会受到影响。而商业模式正在探索验证阶段。World Labs走的是3D空间生成路线,面向游戏和元宇宙市场;Runway依靠内容创作者市场反哺研发;Odyssey的交互式视频流正从技术演示向商业落地推进。创始人Oliver Cameron在公告中提到要实现“世界模型领域的GPT-3时刻”,具身智能市场的爆发点仍在探索中,这正是Odyssey这类先行者的机会所在。机器人赛道在2026年正处于一个关键的时间窗口:技术突破频频传出,商业场景正在逐步清晰。特斯拉的Optimus、Figure AI的人形机器人、Boston Dynamics的Spot,都在通过demo展示能力的同时探索规模化部署的路径。Odyssey赌的是,当具身智能真正起飞时,交互式视频流会成为机器人训练的基础设施,就像ImageNet之于计算机视觉、Common Crawl之于大语言模型。
在具身智能市场爆发之前,Odyssey正在用这3.1亿美元构建从技术到商业的完整路径。世界模型或许真的是通往AGI的必由之路,而Odyssey的长期价值取决于具身智能市场的成熟节奏,公司正在为这个时间窗口做充分准备。让机器理解物理世界,比让它理解人类语言更困难,也更关键。Odyssey赌的是:最懂物理世界的方法,是一步步走出来的。