智元姚卯青:本体数据模型场景闭环,如何撬动具身智能规模化突破?

李鑫2026-06-182532具身智能

2026年张江具身智能大会主论坛上,智元合伙人,高级副总裁,具身业务总裁,觅蜂科技董事长兼CEO姚卯青发表题为《通向具身智能大规模突破之路》的演讲。



 

该演讲系统梳理了具身智能从技术验证到产业落地的演进逻辑,提出以“本体–数据–模型–场景”闭环驱动规模化的路径主张,并结合智元在3C制造、半导体封测、物流及城市服务等场景的落地案例进行实证说明。作为国内较早布局全栈具身智能研发的企业代表,其观点反映了当前产业界对商业化拐点的主流研判。

01.

具身智能为何是连接虚实世界的核心载体?

当前,全球正加速迈入以人工智能为核心的第四次工业革命。此轮变革的核心特征在于数字世界与物理世界的深度耦合,人工智能不再仅停留于信息处理层面,而正通过具身形态,实现对物理环境的感知、决策与主动改造。

回顾AI技术演进脉络,可清晰划分为三阶段:早期以感知智能为主,侧重图像与语音识别;中期依托大模型实现认知智能,显著提升推理与生成能力;当前则进入以具身智能为标志的决策智能阶段。具身机器人作为物理AI的实体载体,其核心价值在于突破“屏幕后算法”的局限,真正进入现实环境,依据人类意图自主执行任务,并通过行为反作用于环境,完成从虚拟到物理的关键跃迁。

相较PC与手机构建的人–数字世界连接通道,具身机器人正成为串联人、数字世界与物理世界的枢纽性基础设施。尤为关键的是,云端智能体虽可优化白领工作流,但人工智能的终极价值释放仍深植于实体生产场景。从市场规模看,具身机器人赛道具备手机与汽车市场叠加的增长潜力,有望成为规模最大的工业级单品赛道。

姚卯青以X–Y–Z三阶段曲线模型界定产业发展周期:

X曲线为技术探索期,聚焦机器人稳定移动能力,运动控制趋于成熟,但精细作业与场景交互仍处实验阶段。

Y曲线为规模化商用期,机器人需同时具备稳定行走、环境交互与自主作业能力。

Z曲线为全面普及期,依托海量数据持续迭代,实现通用泛化与群体智能,机器人在效率与成本层面全面超越人类,成为全社会基础生产力设施。

姚卯青认为目前行业正处于由X向Y过渡的关键窗口期,短期重心在于夯实量产能力、构建高质量数据底座、完善全链路算法体系,并持续沉淀可复制落地场景;长期则依赖本体、数据、模型与场景四要素形成的闭环飞轮,推动具身智能脱离展示属性,真正蜕变为支撑社会运行的通用生产基础设施。

02.

全栈自研闭环如何支撑智元机器人自主产业化?

姚卯青介绍,智元自2023年成立以来,已构建起覆盖本体研发、数据采集、模型训练与场景落地的全栈自研闭环体系。公司于2024年建成自有量产工厂,2025年发布专属具身数据集,2026年初实现万台机器人下线目标。硬件层面,智元覆盖轮式、四足等多类机型;软件层面,同步自研核心控制系统、感知与决策算法。

姚卯青强调,完整自研体系是通用机器人产业化的必经之路,行业无法照搬互联网“先跑马圈地、再迭代优化”的逻辑,具身智能的落地必须依托真实场景的持续反馈与硬件–算法的协同进化。



 

在此闭环中,高质量真实数据构成核心生产资料与运转基石。2024年末至2025年初,智元发布初代AGIBOT WORLD百万级真机数据集,并在张江机器人谷落地专属数据工厂,填补行业规模化真机采集空白;2026年分五期推出第二代数据集,目前已对外发布两期。全部数据源自线下工业作业场景,研发团队主动舍弃低价值家居样本,聚焦工业技工高精度操作内容,并配套标准化处理流程,确保原始素材可直接用于模型训练,规避简易设备采集导致的数据失真问题。

为独立承载数据战略,智元孵化专业数据服务商“觅蜂科技”,构建采集、标注、训练、评测一站式服务体系,面向全球研发团队提供标准化物理世界数据。公司同时持续拓展开发者生态,先后在杭州、维也纳举办AGIBOT WORLD挑战赛,第二届赛事吸引27国526支队伍参与,设置操作与世界模型双赛道,配套标准化硬件降低研发门槛,广泛挖掘多元算法方案。

03.

仿真平台与双线算法怎样提升具身智能研发效能?

仿真平台是压缩真机试错成本的关键支柱。智元自研Genie Sim 3.0高保真仿真平台,兼顾画面真实度与物理运动精度,支持自然语言生成数万套测试场景,适用于数据采集与算法评测。平台提供遥操作与智能体自主采集双模数据生成方式,内置200余项评测维度(覆盖指令理解、精细操作、抗干扰等),仿真与真实场景任务成功率误差控制在10%以内,有效缓解虚实脱节问题,现已成为学界通用仿真基准,支撑内部标准化算法研发。

在算法层面,智元坚持VLA(视觉语言动作)模型与世界模型双线并行策略。姚卯青指出,行业不存在绝对优劣的技术路线:VLA擅长任务规划与语义–动作对齐,世界模型强于物理推演与环境建模,复杂作业需多算法协同。

例如,GO系列VLA模型旨在弥合语义理解与实体操作间的断层,初代GO1基于VILLA架构,融合视觉语言模型与动作专家系统,依托百万级真机数据训练,实现跨机型、跨任务零样本泛化,新场景仅需小时级微调即可部署。



 

2026年5月发布的GO2模型,针对初代精准操作短板,创新引入双阶段动作思维链:先生成全局粗粒度规划,再通过实时异构控制完成精细执行,实现指令理解与操作精度的统一,在主流仿真基准中性能领先同类方案。

04.

多行业真实落地案例如何验证商用可行性?

闭环体系的成熟,最终需由真实场景验证。目前,智元已在工业制造与城市服务两大领域形成多个可复制、可扩展的商用案例。



 

3C电子主产线当中,智元已达成行业首个规模化全天候落地案例。自2026年3月上线合作企业主产线,机器人连续6天×16小时高强度运转,作业精度达1毫米,单件处理效率超300件。今年4月智元联合新华社开展的8小时公开直播测试中,智元精灵G2具身机器人累计完成2280次无故障作业,持续数月稳定运行,成功替代高强度、高流失率人工工位。

半导体封测产线当中针对招工难、无尘车间人工作业受限及粉尘污染等痛点,智元精灵G2具身机器人单台可托管五台测试设备,25秒完成整套料盘上下料,作业成功率99.99%,支持7×24小时无人运行,显著提升车间洁净度与产能。

通用物流场景当中面向货架搬运、空箱回收等标准化需求,智元推出可视化低代码编排框架。合作伙伴无需深厚算法背景,即可基于该框架快速封装成熟作业方案,大幅降低中小企业轻量化智能化改造门槛。

城市公共服务领域,智元在广州地铁站点部署多模态交互机器人,覆盖安检引导、多语种咨询、全域巡检等功能,实现乘客识别、全天候站场运维,为城市公共出行空间智能化提供标准化解决方案。

05.

判断具身智能规模化落地有哪些刚性核心标准?

在长期研发与多场景落地验证基础上,姚卯青提出,具身智能产业亟需回归务实路径。

姚卯青认为,技术路线应强调协同而非对立,VLA模型擅长任务规划与语义-动作对齐,世界模型强于物理环境推演,强化学习则在快速适配新场景中展现优势,三者适用边界不同,复杂作业必须依赖多算法融合。

所谓“世界模型”也需警惕概念泛化,仅能生成视频的系统远未达标,真正合格的世界模型应具备精准物理预测能力,并能通过真实场景反馈持续闭环迭代。

至于规模化落地的核心判据,唯有三项刚性标准可衡量:机器人设备能否长期稳定商用、企业解决方案是否具备跨场景复制能力、项目落地后是否产生可验证的降本增效结果——三者缺一不可,实验室演示仅具技术参考价值,无法反映产业真实进度。

在此背景下,专业真机采集的高质量数据已成为稀缺生产资料,简易设备产出的低质量样本难以支撑工业级模型训练,未来数据供给将加速向真实工业作业场景收敛,数据的场景深度与标注精度,将直接决定模型的落地天花板。

06.

结语与未来:

姚卯青在演讲结尾强调,行业当前处于X曲线向Y曲线过渡的阶段,短期重点在于提升量产能力、构建稳定数据供给与打磨全链路算法体系,并持续沉淀可复制的落地场景;长期则依赖本体、数据、模型与场景形成的闭环飞轮,推动具身智能脱离展示属性,真正成为支撑社会运行的通用生产基础设施。他指出:“没有闭环,就没有规模化;没有真实场景的持续反馈,技术就无法走出实验室。”