融资380亿，跑通工厂的不到10家，物理AI才是最优解？

Jack2026-06-182647机器人技术及应用

2026年6月16日张江机器人论坛上，英伟达刚抛出VLA已死的论断，会场都在热议世界模型能不能取代VLA，人形机器人何时进工厂。微亿智造董事长兼CEO张志琦却提出：光有VLA，跨不过工厂“0.1毫米精度”和“2年回本”，再好的模型也是空谈。

这句话点出了一个被具身智能赛道集体忽略的问题。过去一年，具身智能和人形机器人赛道涌入了305起融资、380亿元资金，超过230家企业挤在同一个方向上。几乎每一家都在讲同一个故事：我们的机器人要进工厂。

一年过去了，真正在产线上稳定运行、客户愿意续费的案例，两只手数得过来。

问题出在哪？张志琦的答案是，所有人都在讨论模型架构，没有人讨论工厂到底需要什么。工厂需要的不是一个模型，而是一个能算得过来ROI、能感知环境、理解物理规律、实时控制动作、并且长期稳定运行不宕机的完整作业系统。

为此，微亿以AI大脑为核心，将工业VLA模型、具身智能飞轮以及垂类专家模型融为一体，然后将其与各类合适的本体进行深度融合，打造真正能落地工厂的物理AI新物种。

01.

物理AI的三块拼图

在工业场景中，VLA已死的说法，在微亿智造看来过于片面。本质上是光有视觉语言动作模型，解决不了工业现场的真实问题。

拆开来看。VLA做的事情是通过看图片、看视频来输出动作指令。这个范式在实验室里跑得通，但一到工厂就暴露出根本缺陷。因为工厂不是静态环境。工件有公差，夹具有偏移，光照会变化，同一批次的材料硬度都可能不一样。智能体需要跟物理环境实时互动，在互动中感知偏差、调整策略、形成闭环。VLA的原始定义里，没有这一层。

世界模型补上了物理规律的建模能力。它让智能体理解重力、摩擦力、碰撞、形变，知道一个物体被抓起之后会发生什么。但世界模型本身不解决控制问题。它告诉你可能发生什么，无法告诉你怎么动手。

控制系统是第三块拼图。它负责把感知和预测转化为实时动作，在毫秒级精度上调整机械臂的轨迹、力度、速度。工业场景对控制的精度要求远高于生活场景。一个打磨动作，力度差一点，良率就掉下来。

物理AI的本质就是这三者融合的系统工程。VLA负责看和想，世界模型负责理解物理规律，控制系统负责动手。三者高速协同运转，才能让AI在工厂里真正干活。

在落地上，微亿把及格线定得很朴素：你把设备部署到产线上，工厂算完账，一到两年能回本，就及格了。算不过来，技术再先进也是不及格。制造业赚的是辛苦钱，对技术的热情永远排在算账后面。

在另一次采访中，微亿智造CTO赵何则说得更加直白：“机器人效率暂时不如人没关系，多上几个工位就行。但今天跑得好好的，明天因为一个环境扰动就宕机，白送工厂都不会用。”

这个标准听起来粗暴，但它解释了过去两年具身智能赛道最核心的困惑：那么多融资、那么多demo、那么多论文，真正在工厂里跑起来的没几家。因为大部分公司做的是只是VLA，不是物理AI。

他们解决了看和想的问题，没有解决理解和控制的问题。微亿的总结是，VLA加世界模型加控制系统，用系统工程的方法高速运转起来，才是物理AI的完整形态。缺任何一块，都过不了工厂的及格线。

02.

机器“打工人”，该长什么样？

AI技术的爆发式进展让很多人相信，造一个跟人外形一样、跟人一样聪明、还不用吃饭睡觉的机器，时机到了。它对标的是生活场景，是开放环境下的泛化能力。让机器人拿起一个杯子，差几厘米没关系，拿起来了就行。

工厂不是这样。工厂要求精度到0.1毫米以内，要求同一个动作重复几十万次不出偏差，要求节拍时间精确到秒。生活场景可以容忍偶尔的失败，工厂不能。一台设备宕机一小时，整条产线的排产计划全部打乱，连带损失远超设备本身的价格。

更根本的矛盾在成本结构。工厂核心诉求很现实：这台机器人能替代几个工人。两年能不能回本，算不过来就不买。而当前市面上的人形机器人，动辄几十万甚至上百万的成本，还根本不够格去工厂打工！

过去一年，已经有人形机器人公司开始悄悄去人形化。双臂变单臂，双足换底盘，头部视觉模块移到机械臂末端。赵何把这称为放下身段。硬件形态变了，控制算法、感知系统、工艺模型全部要跟着变。这不是在原有架构上打补丁，而是整个系统层面的重构。

这就引出了赵何所提到的，本体和模型适配性问题。工厂并不在乎外观形态，只需要更懂工业的大脑，以及更适合干活的机器人产品，这也验证了微亿智造工业VLA路线的正确性。

目前的通用VLA模型，大多用互联网上的视频数据训练模型，教会了模型识别猫、识别沙发、识别人类的表情，但没有教会它识别压铸件的缩孔、焊缝的气孔、打磨面的粗糙度。这些是工业场景里真正决定良率的信息，几乎不存在于任何公开数据集中。通用VLA落地工厂成效弱，根子不在模型能力，而是在数据不对口。

微亿的工业VLA路线，核心差异在于因式分解。把智能体的能力拆成两部分。公因数是跨工艺场景的通用能力，对机械臂运动学的理解、对3D空间感知的能力、对任务拆解和执行规划的能力，用泛工业数据训练一个基座模型。特定因子是针对具体工艺的微调，打磨需要知道不同材质的去除率曲线，质检需要知道特定缺陷的形态特征，用产线真实数据做fine-tuning。每进入一个新工艺场景，不需要从头训练模型，只需要在基座上叠加少量工艺数据。项目交付周期从两三个月压缩到了周。

支撑这套架构的，是微亿在产线上积累的23TB真实工业数据。行业多数企业不超过5TB。这23TB并非网络视频或仿真合成素材，而是真实产线上带着飞边、毛刺、漏检、误判，及机器人的感知、运行轨迹、工序时序参数……。其中部分负样本是机器犯错之后被老师傅纠正回来的宝贵经验数据。数据的价值不在体量，在分布的宽度。覆盖多场景、多工艺类型、不同工厂环境，决定了模型的泛化上限。

03.

技工与普工的两条路径

物理AI的第三块拼图是控制系统。而控制系统要做到毫秒级精度，硬件和算法必须一体。

集成商进工厂，传统做法是买一个黑盒机械臂，外挂一个AI大脑，通过接口通信。但机械臂厂商不会对你开放底层控制协议，你能做的只是在接口层面发指令。结果是demo看起来能跑，但动作慢、精度差、调试周期长。更致命的是，当你在现场发现问题，你知道在底层控制参数上做一个小调整就能解决，但你没有权限。

微亿从底层的机械臂控制算法做起，到上层的感知模型、任务规划、工艺模型，全部自研。在机器人大讲堂的采访中，赵何承认，第一眼看过去确实很重。但他给出了一个反直觉的判断：“全栈自研才是唯一能规模化复制的路线。”

赵何管这叫重在前，轻在后。前期开发确实重，但从硬件、软件、算法全部自主可控，交付部署就变得极轻。一套系统开发完，部署到100个工位和部署到1个工位的边际成本相差无几。反过来，外包硬件的模式是前期轻，后期重。每交付一个项目，都要跟硬件供应商协调、调试、适配，每次都是重交付。赵何说，我们只重了一次！

这个逻辑在工业现场已经被验证。微亿的方案覆盖了质检、打磨、上下料、拆码垛等多个制造场景，客户的核心关注点始终是三个指标。CT时间、换型时间、良率。换型时间是很多机器人公司忽略的指标。传统工业机器人换型要换工装夹具、重新调点位，停产一周是常态。微亿的系统在这个指标上有明显优势，因为软硬一体让换型变成了模型切换加少量参数调整，而不是重新部署。

在落地过程中，微亿发现不同工种对物理AI的能力要求截然不同。他们把场景分成了两类：技工和普工。

技工是那些需要专业知识才能做的事情。质检员能一眼看出压铸件表面的微小裂纹，打磨师傅知道某个位置要多磨两秒，焊接工能听声音判断电流参数对不对……这些能力无法被简单编程，它们沉淀在老师傅的手感和直觉里，是几十年经验蒸馏出来的隐性知识。普工是上下料、拆码垛、简单搬运。培训三分钟就能上手，不需要任何专业知识。

两条路径的付费逻辑完全不同。技工的用工成本高，可替代性差，工厂有强烈的付费意愿用机器替代。普工的工资低，替代门槛反而更高，因为机器的成本很难比一个普工的工资更低。赵何的判断很直接。短期内，技工类任务的客户付费意愿远高于普工。

但两条路径共享数据、感知、任务理解、轨迹规划等通用底层架构，区别只在最后一环。技工需要叠加一个工艺模型来指挥端拾器，普工不需要这一层，但它对系统整体的鲁棒性要求更高，因为面对的是更开放、更不可预测的工况。越往底层，共性越多。数据怎么回流、怎么管理、怎么触发模型训练，这些对所有场景都一样。

工业AI的落地，技术架构决定了能不能跑起来，数据飞轮决定了能跑多远。微亿的23TB数据不是一次性采集的，是在产线持续运行中积累的。产线在跑，数据沉淀，人类在环的反馈同时运转。当积累到足够触发新一轮模型训练的数据量，系统自动启动训练，更新机台模型。这套机制让微亿的模型能力随着产线运行时间线性增长，而不是靠一次性的大规模数据采集来驱动。

04.

先工业，后生活

如今，业内已逐步达成共识：物理AI得先在工业里证明自己，再外溢到生活场景！

这个顺序不是策略选择，是物理规律决定的。工业场景边界清晰、结构化、可控，AI不需要考虑那么多长尾问题和开放性场景。产线上是哪种产品就是哪种产品，工艺参数是确定的，质量指标是可量化的。这些条件让工业成为物理AI最好的训练场。

当在工厂里积累的方法论和技术栈足够成熟，自然会向受控的生活场景延伸。微亿希望成为那个当物理AI变成常态时，被业内真心评价为首批真正把物理AI在工业里跑通了的公司。

这不是一句口号，这是微亿一直在做的事。

精彩推荐

这些展台没有机器人，却围满了找数据的人｜WAIC观察

WAIC 2026上的机器人形态大爆发！具身智能的“身体”，究竟该长什么样？

50亿融资，200亿估值，端侧智能领域又出了一家独家兽

WAIC 2026前瞻，具身智能最值得看的都在这儿了！（一）

税收数据“接住”资本热度，市场迎来“验收时刻”？

精彩文章

扫码手机阅读

融资380亿，跑通工厂的不到10家，物理AI才是最优解？

精彩推荐

关于我们

商务合作