世界模型与VLA如何落地？八位国内顶尖具身智能专家把行业痛点讲透了

李鑫2026-06-251742具身智能

当下，世界模型已成为具身智能冲击通用化应用的核心赛道，如何依托模型、数据、工程体系，让机器人真正看懂物理环境、预判动态变化并自主完成作业，成为全行业关注的焦点。在 2026 张江具身智能供应链大会现场，一场围绕世界模型前沿：物理世界的理解、生成与预测的圆桌对话就此展开。

活动由国地共建人形机器人创新中心首席技术官邢伯阳主持，京东集团副总裁、京东云基础云业务负责人龚义成；千寻智能副总裁、董事孙荣毅；微亿智造董事长兼 CEO 张志琦；流形空间 CEO 武伟；具脑磐石 CEO 朱森华；具身智能资深市场专家张力；华为机器人领域解决方案部部长杨战弟等嘉宾参与交流。围绕世界模型与VLA的协同关系、不同应用场景下的技术需求、数据采集的技术路线、专用模型与通用模型的差异、算力与软硬件协同、产业商业化落地路径、行业中长期发展趋势等核心话题展开深入交流，直面当下具身智能产业的现存问题，分享一线技术探索与市场判断。

01.

数据基建与算力网络如何补齐产业短板？

在整场大会的多场演讲与对话中，高质量数据短缺被反复提及，也是制约机器人从演示场景走向真实产线的核心瓶颈。当下行业普遍存在重模型研发、轻数据基建的问题，真机数据、第一人称视角数据、故障数据的价值尚未被充分挖掘，同时多模态大模型对算力、网络传输提出了更高要求。基于这一行业共性难题，嘉宾们首先围绕数据采集类型、数据价值、算力网络配套展开探讨。

京东集团副总裁、京东云基础云业务负责人龚义成

“很多机器人在表演性质场景中应用较多，真实场景落地却很少。” 京东集团副总裁、京东云基础云业务负责人龚义成一语道破行业痛点。作为国内最早开展人类第一视角真实场景数据采集的企业之一，京东对这一问题有切肤之痛。龚义成透露，京东设定了一个目标：接下来两年内完成 1000 万小时具身智能数据和几百万多模态数据的采集。

这个数字背后，是对行业成熟度的清醒认知。龚义成坦言，这项工作涉及数据采集精度、模型训练与数据匹配、数据多样性等一系列关键问题，需要不断迭代才能明确什么是高质量数据，形成双向飞轮效应。

流形空间 CEO 武伟从自动驾驶的经验中得出了一个反共识的结论：“我们发现只用人开车的数据，训练不出自动驾驶。” 他的解释颇具启发性：人在 18 岁拿到驾照之前，就在这个世界生活了 18 年，如果把人眼看作双目摄像头，其实已经吃进去几百万的数据。这种 “预训练” 是机器人所缺乏的。

流形空间 CEO 武伟

武伟特别强调，真实数据不仅仅是真机数据，第一人称视角的视觉数据同样宝贵，而且不仅包含真实的成功，还有真实的失败。基于这一认识，流形空间的策略清晰明确：落地B端场景产生营收，同时把这些钱花费到C端数据采集上。这种“以战养战”的策略，映射出整个行业的生存逻辑，当下的商业化不是目的，而是通往终局的手段。

华为机器人领域解决方案部部长杨战弟

结合产业基础设施建设话题，华为机器人领域解决方案部部长杨战弟分享了算力、网络层面的思考。他指出当前算力并不能充分释放世界模型的物理认知上限，主要受到成本/功耗/容量的影响。

从世界模型的研发态和运行态的迭代演进出发，端侧算力无法支撑世界模型的部署推理，需要构建云边端网协同的算力新范式；端侧算力支撑轻量化模型、实时感知和运动控制，边缘侧算力负责任务规划与策略决策，云侧大算力支撑模型预训练、大规模仿真以及长程复杂任务的规划与决策，低时延高可靠的网络支撑云边端实时协同，包括数据回流及模型分层推理等业务闭环，通过以上云边端三级协同架构消除算力和世界模型的供需GAP。

02.

VLA与世界模型该向上融合，还是底层重构？

当前VLA与世界模型两大主流技术路线并行发展，行业对于二者如何结合、技术该向上融合优化还是从底层重构，形成了截然不同的观点。

千寻智能孙荣毅是技术融合派的代表。他认为，VLA（视觉－语言－行动模型）与世界模型并非相互竞争的关系，而是一体两翼、互补融合的整体。

千寻智能副总裁、董事孙荣毅

千寻智能采用视觉Token方案实现二者深度融合，充分发挥两类模型的差异化优势。其中，VLA的核心优势集中在输入处理与百毫秒级的快速输出，实时性表现突出；世界模型擅长环境态势预测，但运算耗时达到秒级，实时性较弱。在训练层面，企业采用差异化数据训练模式：依托互联网海量人类视频数据训练世界模型，使其习得物理世界的作业逻辑与动作预判能力，且该训练无需额外动作标注；同时采用标注数据训练VLA模型，最终实现两类模型优势互补，达成1+1＞2的融合效果。

具身智能资深市场专家张力，从市场落地维度进一步佐证了融合思路。他将具身智能拆解为两大核心能力：对物理世界的理解能力、与物理世界的交互能力。

在他看来，当前VLA模型已经具备不错的物理世界理解能力，但只停留在“学习认知”阶段，无法完成有效输出，缺少和物理世界的深度交互。而世界模型，尤其是隐式世界模型，突破了这一短板，能够形成高维度的物理空间认知。人类认知物理世界，并非所有规律都需要通过语言具象表述，更多是对物理属性、流体动力学、摩擦力等客观规律的隐性感知。因此，张力认为，行业未来的核心方向，是依托隐式世界模型挖掘、沉淀物理规律，以此提升具身智能模型的泛化能力，推动技术落地。

具脑磐石朱森华站到底层重构路线视角，对行业主流的融合优化方案持不同观点。

具脑磐石 CEO 朱森华

他表示，行业多数方案都是通过VLA与世界模型融合、仿真优化、数据迭代等方式，在现有框架下提升算法性能，而具脑磐石的技术思路完全不同。当前AI技术面临的泛化能力不足、功耗过高、无法实现终身学习等核心痛点，根源在于现有神经网络的底层范式——从神经元定义、网络连接架构，到整体训练与算法结构，从底层限制了模型无法实现低功耗、少数据、高泛化、终身学习的能力突破。仅做上层技术融合，无法从根本上解决问题。

因此，他主张跳出现有算力、数据、参数堆叠的行业通用路径，结合AI与脑科学研究，深度借鉴人类大脑的智能运作逻辑，以系统性理论指导算法底层革新，重构神经元、训练架构与算法体系，从根源上拉高VLA、世界模型的能力上限，实现真正的类人智能。

两种截然不同的技术路线，也体现出当下具身智能赛道的产业活力。

朱森华也坦言，具身智能模型赛道仍有广阔的发展空间，能够容纳不同的技术路径、创新方向并行探索，也期待更多从业者入局，共同推进算法与技术的创新迭代。

03.

工业场景如何务实落地，行业终极市场在哪？

从工业现场的实际作业需求来看，不同操作场景对技术方案有着差异化要求，同时工业应用有着极强的落地标准与成本考量。

微亿智造董事长兼 CEO 张志琦

微亿智造张志琦深耕工业智能化领域，其公司主打可直接在现场运行的工业具身智能机器人。目前世界模型与VLA的技术架构持续迭代，但VLA在高精度作业中依旧存在不少难题。针对工业不同工况，微亿智造形成了分类落地思路：面对高精度作业需求，会采用分段式架构，并搭配规则引擎兜底，以此把控0.1毫米级的精度误差；像物流供件、无序拆码垛这类动作复杂、精度要求相对宽松的场景，VLA架构则能发挥出更好的实际作用。

在商业落地层面，工业客户要求技术方案必须真正接入产线使用，还会严格核算 ROI，无法在两年内回本的设备基本不具备落地价值。因此微亿智造选择融合多种技术保障落地效果，同时依托工业现场沉淀场景化数据，为后续技术迭代铺路。

结合技术成熟度与场景难度，行业也梳理出了阶梯式的落地节奏。整体来看，当前具身智能的整体能力仍处于发展初期，不同应用场景的难度梯度十分明显。千寻智能孙荣毅提出，按照场景难度划分，行业应遵循“工业—商业—家庭”的落地顺序。工业场景环境相对固定，对模型泛化能力要求更低，是现阶段最容易实现规模化落地的领域；家庭场景环境复杂多元，用户需求千差万别，对模型泛化能力提出了极高挑战，布局难度最大。不过工业场景虽然落地门槛低、落地条件成熟，但整体市场体量有限，行业真正的发展蓝海集中在家庭消费端。基于这一现状，孙荣毅认为可以依托工业场景打磨产品形态、交付模式与商业模式，在落地过程中攻克端到端模型存在的长尾效应问题，借助远程接管、运维等方式保障生产安全与产品质量，严守工业生产的安全、品质两条红线，将工业场景当作技术与产品的试炼场。

具身智能资深市场专家张力

张力指出，工业场景的落地价值需要围绕节拍效率、作业准确度、使用经济性三大核心维度综合评判。流水线中的搬运、分拣、扫码等常规工作，更看重整体作业节拍与基础执行能力，也是目前多数具身智能企业主攻的方向；而精密制造、化学实验室等精细操作场景，对作业准确度有着极致要求，这类场景数据采集难度大，也制约了模型通用化、跨设备泛化能力的训练提升。除此之外，任务失误产生的损失成本，直接决定了企业是否愿意引入相关智能设备，一旦操作失误会造成整条产线受损的场景，企业对新技术的接纳会格外谨慎。

流形空间武伟表示，工业赛道的市场竞争必然会愈发激烈，但行业长远发展的终极目标仍是C端市场。这也意味着，企业在深耕工业场景、获取营收的同时，还需要持续收集 C 端第一人称视角数据，提前布局，为行业终局竞争做好储备。

综合各方专家的观点不难发现，工业场景是具身智能现阶段落地的务实之选，是技术走向成熟、实现商业闭环的必经之路，却并非行业发展的最终方向。

04.

如何在赛道冰火两重天中坚持长期主义的基本原则？

圆桌尾声环节，主持人邢伯阳结合当下行业现状抛出总结性议题：当前人形机器人、具身智能行业冷热分化明显，大量互联网大厂快速入局，短周期内就能推出可运行的人形机器人，针对这一行业现状，多位嘉宾分别从自身赛道、企业业务视角，分享了行业中长期发展判断与发展思路。

京东集团龚义成将行业长期发展的核心抓手落在数据建设层面。在他的判断里，制约具身智能持续迭代、走向家庭规模化普及的核心瓶颈，是高质量、多元化的行业数据集。依托自身海量线下物流场景，京东现阶段的核心工作是系统化采集、标准化处理场景数据，搭建大规模多模态数据集，通过开放数据资源，为全行业机器人研发提供底层支撑。

千寻智能孙荣毅认为具身智能属于长周期赛道，技术与产业成熟无法短期速成，企业不能为满足资本短期收益要求，牺牲长期技术研发投入。同时行业发展需要贴合自身技术定位，具身智能的核心价值，是依靠模型泛化能力适配多品种、小批量、高柔性的新型智能制造需求，传统单一品类大批量标准化生产场景，并不适配人形机器人的技术优势，企业布局需要遵循产业客观发展规律。

微亿智造张志琦提出行业技术研发的核心落脚点应当是重构新一代生产力；同时行业从业者需要跳出 “人形机器人适配所有场景” 的固有思维，在不少工业场景中，人形设备并非都是最优技术方案，技术选型的核心标准是能否真正适配复杂工业场景需求、达成预期ROI价值。

流形空间武伟预判了具身智能模型赛道长期会形成头部集中的竞争格局。全球范围内能够自研顶尖基础大模型的企业数量十分有限，延伸到物理世界具身模型领域，最终市场资源也会集中在少数头部企业，形成赢家通吃的态势。各行各业对应繁杂多样的作业工种，头部模型企业将掌握行业大部分利润，是企业长期核心竞争主线，也是持续突破模型推理智能化能力上限。

具脑磐石朱森华融合技术创新与商业化落地逻辑，提出适配行业长期发展的商业化路径。现阶段行业技术尚未完全成熟，不适合直接追求全场景通用落地，企业应当优先筛选具备真实付费需求、可小规模复制、能够依托自身核心技术形成壁垒的高价值细分场景，依靠细分场景落地实现阶段性营收，以 “沿途下蛋” 的模式持续反哺长期技术研发。

具身智能资深市场专家张力从全产业链分工视角，梳理了行业长期发展的完整结构。千家万户、各行各业的落地需求体量庞大，仅凭少数机器人企业无法完成全部市场覆盖。现阶段行业硬件配套已经达到阶段性成熟水平，软件、模型、算法能力才是制约设备实用化的短板，也是行业当下突破的核心方向。张力认为长远来看产业会形成四层完整链条：零部件、机器人本体、整机与具身大模型，同时会诞生大量面向各行各业做二次开发、落地实施的集成服务商，当前具备自研模型能力的企业稀缺，下游场景集成开发会是未来巨大增量市场。

华为杨战弟认为世界模型在行业落地应当遵循由简至难的循序渐进逻辑，优先进入高度结构化的场景逐步拓展到复杂泛化的作业场景。华为目前正与上海国地中心联合孵化全国首个国产具身智能实训场解决方案，旨在构建覆盖“数据模型仿真部署”全流程的工具平台与底层基础设施。该解决方案包含虚实结合的数据采集工厂、国产算力驱动的模型仿真训推平台、开源鸿蒙具身智能操作系统，以及云边端网协同的应用部署架构和方案并计划于7月18日世界人工智能大会（WAIC）正式发布，诚邀业界同仁莅临交流。

05.

结语与未来

这场圆桌论坛，本质上是对具身智能产业的一次集体校准。当世界模型带来新的技术可能性，当资本和大厂涌入带来新的竞争格局，产业真正需要的不是更多的狂热，而是对基础问题的深入思考：什么是高质量数据？技术突破应该在哪个层面发生？工业场景的价值是什么？如何在短期生存和长期目标之间找到平衡？

与会专家的统一共识是：具身智能是一条长坡赛道，需要在数据、模型、工程、基础设施等多个维度协同发力。世界模型的出现为具身智能带来了新的可能性，但数据积累、技术突破、商业闭环，一个都不能少。产业分工会更加明确，从零部件到本体，从模型到集成，每个层面都有自己的价值创造空间。

更重要的是，这个行业需要保持战略定力，尊重客观规律。不要为了干而干，不要迫于资本压力做短期营收牺牲长期利益。从易到难，从工业到商业再到家庭，在B端打磨能力的同时为C端的终极目标积累势能。这才是从技术狂热到理性落地的正确路径。

精彩推荐

平均年龄不到25岁，清华博士团队凭什么让雷军独家押注？

为优必选、荣耀、智元代工，这家营收破500亿制造巨头即将赴港IPO

成立仅1年拿下数亿融资，深度机智凭什么让十余家机构集体下注？

当芯片长出手脚，3274亿市值的巨头快速切入具身智能

北大仉尚航团队提出 LaST-R1框架，机器人首次学会"边想边做"！

精彩文章

扫码手机阅读

世界模型与VLA如何落地？八位国内顶尖具身智能专家把行业痛点讲透了

精彩推荐

关于我们

友情链接

商务合作