2026年5月,全球具身世界模型权威评测基准WorldArena公布榜单。跨维智能自研的通用具身世界模型DSCFuncWorld,在Track 2(Data Engine)赛道斩获全球第一,大幅领先WoW、BLM等国际主流模型,刷新该赛道全球最优成绩,再一次证明了跨维智能的底层技术实力已稳居全球具身世界模型第一梯队。
![]()
01.
全球第一究竟意味着什么
WorldArena因为不仅包含 16 项细分核心指标和 3 大真实应用任务的立体化评估体系,能够全方位严苛考察具身世界模型的感知精度、物理规律理解、三维空间认知以及动作预测与实际落地能力。而且拥有严苛、全面、贴合产业落地的评测标准,因此汇聚了全球顶尖科研团队与头部企业模型同台比拼。前不久智元刚刚拿下track1的第一名,含金量就获得业内一致认可,可见榜单的热度和权威性。
WorldArena设有两条核心赛道,侧重和能力定位略有不同。其中,Track 1偏重视觉画面质量、动态效果与物理一致性,侧重感知上限;Track 2则考验世界模型作为数据合成引擎和行动规划载体的全链路落地能力,要求参赛模型依据初始场景与文本指令自主模拟完整机器人交互流程,最终以机器人真实任务成功率作为核心判定标准。
![]()
这两条赛道代表的,其实是世界模型的两种哲学。一种追求画面的逼真与感知的完备,另一种追求合成数据对机器人策略训练的实际赋能效率。前者是感知竞赛,后者更像是产业竞赛,更追求模型输出的数据能不能驱动机器人在现实世界真实完成任务。
Track 2也被业内公认为含金量更高的实战赛道。有一组学术数据可以佐证这一判断。2026年2月,清华等机构联合发布的WorldArena论文,在14个代表性世界模型(涵盖Veo 3.1、Wan 2.6、CogVideoX、Cosmos-Predict等主流模型)上系统测量了视觉质量与下游具身任务能力的关系,结论相当直接,综合视觉质量指标EWMScore与人类主观打分的相关性高达Pearson r=0.825,但与机器人任务成功率之间的相关性仅为r=0.360。视觉和美学分最高的Veo 3.1,但在具身任务指标上反而提升有限,并伴随明显的语义漂移。
这意味着生成的视觉质量与机器人任务成功率之间并不必然正相关,一个视频生成能力再强的模型,可能完全无法产生一条可用的机器人训练数据。这也解释了为什么跨维智能的这次胜出具有超出单次榜单意义的价值。
02.
DexWorldModel模型底座到底强在哪?
跨维智能能够在 Track 2 登顶,本质上是因为它在具身数据生成、仿真训练闭环、策略赋能与虚实迁移等全链路环节,构筑了一个完整的工程化闭环。
机器人大讲堂了解到,此次夺冠的DSCFuncWorld,是跨维自研核心底座DexWorldModel的适配版本,并非针对竞赛专门定制。
![]()
支撑它在Track 2取得领先的技术逻辑,主要得益于这套闭环,持续积累了「可训练、可迁移、可执行」的系统性机器人动作数据,补齐了世界模型通往真实物理世界的关键短板。因为其采用因果隐空间建模,依托DINO语义特征空间精准建模未来世界状态,重点强化环境纹理、物体关联与物理规则的鲁棒表达。在绝大多数同类模型试图在视觉像素层面对未来画面进行拟合,而DexWorldModel选择在隐空间中直接建模“对行动有意义的状态”,将模型容量集中配置在与任务决策强关联的信息通道上。
拆解技术架构来看,DexWorldModel有着四层协同的体系。
在表示层,其将生成目标从像素空间切换至DINO语义特征空间,使模型回答的问题变为「状态预测」;在推理层,预测式异步推理(SAI)将机械臂执行与模型推理深度重叠,实测端到端阻塞延迟下降约50%;在数据层,EmbodiChain具身数据链构建了从资产生成、轨迹采样到失败恢复回流的全链路数据供给,持续为世界模型训练注入物理可信的新鲜经验。在架构层,EVA技术框架则通过逆动力学奖励机制,将可执行性约束内嵌于生成过程本身,确保模型推演的未来轨迹不仅视觉自洽,更贴近真实机器人可完成的动作路径。
这套模型架构是跨维在Track 2数据引擎任务中得以领先的技术关键,也可以说Track 2 才是真正让跨维智能的 DSCFuncWorld 模型在这一评价坐标系中找到了自己的发力点。
03.
这不是跨维第一次站上榜首
跨维智能在世界模型与具身智能方向一直有着长足技术积累。
例如在以机器人任务成功率为核心评价维度的RoboTwin仿真基准上,DexWorldModel就曾取得94.00%的平均成功率,超过同期多项国际主流基线。
更具说服力的是零样本Sim2Real结果:模型仅在仿真环境中训练,在四个真实机器人任务上直接部署,就取得优于π0、GR00T N1.5与Sim2Real-VLA的成绩。而在更进一步的工作中,还使用了真机示范数据进行微调以增加准确率。
![]()
在当年于美国举办的全球顶级机器人大赛ICRA现场,跨维的双臂机器人凭借自研大模型和纯视觉系统,独立完成安装硅胶柱、操作透明试管等精细操作,成为全场唯一无需人工干预的参赛者,最终斩获世界冠军。这是该技术路线在权威赛事中的首次顶级验证。
跨维还将具身智能数据基建EmbodiChain完整开源,开放资产生成、场景布局、轨迹采样、失败恢复、在线数据流等全套模块;同时发布GS-World世界模型技术方案,形成从合成数据生产到策略模型训练的完整研究路径。
在商业化层面,跨维智能已将具身智能解决方案落地于50余个细分行业、超千个项目。其中海信生产线柔性插拔装配机器人成功率达99.99%,美的工厂无序零件分拣机器人效率是人工的3倍,这些数字来自量产交付现场,而非实验室Demo。这也是其2024年整体营收突破亿元,2025年人形机器人W1 Pro批量出货超百台,客户涵盖比亚迪、广汽、中联重科、三一重工、松下等头部制造企业。
此外,跨维一直以来还在试图直接构建面向物理交互数据的世界模型体系,让合成数据加入多种真机数据,共同驱动机器人策略训练,数据闭环初步搭建完成。
从 RoboTwin 第一、ICRA 冠军到此次 WorldArena Track 2 全球登顶,一系列重磅成绩背后,是跨维智能依托 DexWorldModel 范式走出的差异化技术路线。不同于行业普遍聚焦概念创新,跨维智能始终直面具身智能落地最核心、最关键的系统性难题,专注解决当下真实部署的核心阻碍,优先搭建能够支撑产业落地的底层系统能力。DexWorldModel 正是这一务实思路下的阶段性技术成果,一步步补齐技术与现实之间的关键短板、缩小落地间隙让世界模型距离真实机器人部署、规模化产业应用更近一步。
04.
下半场的真正分水岭
不久前,英伟达发布了面向物理AI的开放基础模型Cosmos 3,谷歌DeepMind也将Project Genie推向公共测试阶段。这些信号共同指向一个清晰的产业判断:世界模型的价值定义正在彻底重构,告别过去以画面生成效果为核心的单一评判标准,转向以适配真实物理规则、赋能实体机器人落地为核心的全新赛道。
这也意味着下半场,能否锚定真实世界运行逻辑、打通虚拟仿真与现实应用的边界,成为衡量世界模型价值的核心。行业竞争重心,从浅层视觉生成内卷,转向底层物理智能能力的长期比拼。