融资380亿,跑通工厂的不到10家,物理AI才是最优解?

Jack2026-06-182426机器人技术及应用

2026年6月16日张江机器人论坛上,英伟达刚抛出VLA已死的论断,会场都在热议世界模型能不能取代VLA,人形机器人何时进工厂。微亿智造董事长兼CEO张志琦却提出:光有VLA,跨不过工厂“0.1毫米精度”和“2年回本”,再好的模型也是空谈。

这句话点出了一个被具身智能赛道集体忽略的问题。过去一年,具身智能和人形机器人赛道涌入了305起融资、380亿元资金,超过230家企业挤在同一个方向上。几乎每一家都在讲同一个故事:我们的机器人要进工厂。

一年过去了,真正在产线上稳定运行、客户愿意续费的案例,两只手数得过来。



 

问题出在哪?张志琦的答案是,所有人都在讨论模型架构,没有人讨论工厂到底需要什么。工厂需要的不是一个模型,而是一个能算得过来ROI、能感知环境、理解物理规律、实时控制动作、并且长期稳定运行不宕机的完整作业系统。

为此,微亿以AI大脑为核心,将工业VLA模型、具身智能飞轮以及垂类专家模型融为一体,然后将其与各类合适的本体进行深度融合,打造真正能落地工厂的物理AI新物种。

01.

物理AI的三块拼图

在工业场景中,VLA已死的说法,在微亿智造看来过于片面。本质上是光有视觉语言动作模型,解决不了工业现场的真实问题。

拆开来看。VLA做的事情是通过看图片、看视频来输出动作指令。这个范式在实验室里跑得通,但一到工厂就暴露出根本缺陷。因为工厂不是静态环境。工件有公差,夹具有偏移,光照会变化,同一批次的材料硬度都可能不一样。智能体需要跟物理环境实时互动,在互动中感知偏差、调整策略、形成闭环。VLA的原始定义里,没有这一层。

世界模型补上了物理规律的建模能力。它让智能体理解重力、摩擦力、碰撞、形变,知道一个物体被抓起之后会发生什么。但世界模型本身不解决控制问题。它告诉你可能发生什么,无法告诉你怎么动手。

控制系统是第三块拼图。它负责把感知和预测转化为实时动作,在毫秒级精度上调整机械臂的轨迹、力度、速度。工业场景对控制的精度要求远高于生活场景。一个打磨动作,力度差一点,良率就掉下来。

物理AI的本质就是这三者融合的系统工程。VLA负责看和想,世界模型负责理解物理规律,控制系统负责动手。三者高速协同运转,才能让AI在工厂里真正干活。



 

在落地上,微亿把及格线定得很朴素:你把设备部署到产线上,工厂算完账,一到两年能回本,就及格了。算不过来,技术再先进也是不及格。制造业赚的是辛苦钱,对技术的热情永远排在算账后面。

在另一次采访中,微亿智造CTO赵何则说得更加直白:“机器人效率暂时不如人没关系,多上几个工位就行。但今天跑得好好的,明天因为一个环境扰动就宕机,白送工厂都不会用。”

这个标准听起来粗暴,但它解释了过去两年具身智能赛道最核心的困惑:那么多融资、那么多demo、那么多论文,真正在工厂里跑起来的没几家。因为大部分公司做的是只是VLA,不是物理AI。

他们解决了看和想的问题,没有解决理解和控制的问题。微亿的总结是,VLA加世界模型加控制系统,用系统工程的方法高速运转起来,才是物理AI的完整形态。缺任何一块,都过不了工厂的及格线。

02.

机器“打工人”,该长什么样?

AI技术的爆发式进展让很多人相信,造一个跟人外形一样、跟人一样聪明、还不用吃饭睡觉的机器,时机到了。它对标的是生活场景,是开放环境下的泛化能力。让机器人拿起一个杯子,差几厘米没关系,拿起来了就行。

工厂不是这样。工厂要求精度到0.1毫米以内,要求同一个动作重复几十万次不出偏差,要求节拍时间精确到秒。生活场景可以容忍偶尔的失败,工厂不能。一台设备宕机一小时,整条产线的排产计划全部打乱,连带损失远超设备本身的价格。

更根本的矛盾在成本结构。工厂核心诉求很现实:这台机器人能替代几个工人。两年能不能回本,算不过来就不买。而当前市面上的人形机器人,动辄几十万甚至上百万的成本,还根本不够格去工厂打工!



 

过去一年,已经有人形机器人公司开始悄悄去人形化。双臂变单臂,双足换底盘,头部视觉模块移到机械臂末端。赵何把这称为放下身段。硬件形态变了,控制算法、感知系统、工艺模型全部要跟着变。这不是在原有架构上打补丁,而是整个系统层面的重构。

这就引出了赵何所提到的,本体和模型适配性问题。工厂并不在乎外观形态,只需要更懂工业的大脑,以及更适合干活的机器人产品,这也验证了微亿智造工业VLA路线的正确性。

目前的通用VLA模型,大多用互联网上的视频数据训练模型,教会了模型识别猫、识别沙发、识别人类的表情,但没有教会它识别压铸件的缩孔、焊缝的气孔、打磨面的粗糙度。这些是工业场景里真正决定良率的信息,几乎不存在于任何公开数据集中。通用VLA落地工厂成效弱,根子不在模型能力,而是在数据不对口。

微亿的工业VLA路线,核心差异在于因式分解。把智能体的能力拆成两部分。公因数是跨工艺场景的通用能力,对机械臂运动学的理解、对3D空间感知的能力、对任务拆解和执行规划的能力,用泛工业数据训练一个基座模型。特定因子是针对具体工艺的微调,打磨需要知道不同材质的去除率曲线,质检需要知道特定缺陷的形态特征,用产线真实数据做fine-tuning。每进入一个新工艺场景,不需要从头训练模型,只需要在基座上叠加少量工艺数据。项目交付周期从两三个月压缩到了周。

支撑这套架构的,是微亿在产线上积累的23TB真实工业数据。行业多数企业不超过5TB。这23TB并非网络视频或仿真合成素材,而是真实产线上带着飞边、毛刺、漏检、误判,及机器人的感知、运行轨迹、工序时序参数……。其中部分负样本是机器犯错之后被老师傅纠正回来的宝贵经验数据。数据的价值不在体量,在分布的宽度。覆盖多场景、多工艺类型、不同工厂环境,决定了模型的泛化上限。



 

03.

技工与普工的两条路径

物理AI的第三块拼图是控制系统。而控制系统要做到毫秒级精度,硬件和算法必须一体。

集成商进工厂,传统做法是买一个黑盒机械臂,外挂一个AI大脑,通过接口通信。但机械臂厂商不会对你开放底层控制协议,你能做的只是在接口层面发指令。结果是demo看起来能跑,但动作慢、精度差、调试周期长。更致命的是,当你在现场发现问题,你知道在底层控制参数上做一个小调整就能解决,但你没有权限。

微亿从底层的机械臂控制算法做起,到上层的感知模型、任务规划、工艺模型,全部自研。在机器人大讲堂的采访中,赵何承认,第一眼看过去确实很重。但他给出了一个反直觉的判断:“全栈自研才是唯一能规模化复制的路线。”

赵何管这叫重在前,轻在后。前期开发确实重,但从硬件、软件、算法全部自主可控,交付部署就变得极轻。一套系统开发完,部署到100个工位和部署到1个工位的边际成本相差无几。反过来,外包硬件的模式是前期轻,后期重。每交付一个项目,都要跟硬件供应商协调、调试、适配,每次都是重交付。赵何说,我们只重了一次!

这个逻辑在工业现场已经被验证。微亿的方案覆盖了质检、打磨、上下料、拆码垛等多个制造场景,客户的核心关注点始终是三个指标。CT时间、换型时间、良率。换型时间是很多机器人公司忽略的指标。传统工业机器人换型要换工装夹具、重新调点位,停产一周是常态。微亿的系统在这个指标上有明显优势,因为软硬一体让换型变成了模型切换加少量参数调整,而不是重新部署。

在落地过程中,微亿发现不同工种对物理AI的能力要求截然不同。他们把场景分成了两类:技工和普工。

技工是那些需要专业知识才能做的事情。质检员能一眼看出压铸件表面的微小裂纹,打磨师傅知道某个位置要多磨两秒,焊接工能听声音判断电流参数对不对……这些能力无法被简单编程,它们沉淀在老师傅的手感和直觉里,是几十年经验蒸馏出来的隐性知识。普工是上下料、拆码垛、简单搬运。培训三分钟就能上手,不需要任何专业知识。

两条路径的付费逻辑完全不同。技工的用工成本高,可替代性差,工厂有强烈的付费意愿用机器替代。普工的工资低,替代门槛反而更高,因为机器的成本很难比一个普工的工资更低。赵何的判断很直接。短期内,技工类任务的客户付费意愿远高于普工。

但两条路径共享数据、感知、任务理解、轨迹规划等通用底层架构,区别只在最后一环。技工需要叠加一个工艺模型来指挥端拾器,普工不需要这一层,但它对系统整体的鲁棒性要求更高,因为面对的是更开放、更不可预测的工况。越往底层,共性越多。数据怎么回流、怎么管理、怎么触发模型训练,这些对所有场景都一样。

工业AI的落地,技术架构决定了能不能跑起来,数据飞轮决定了能跑多远。微亿的23TB数据不是一次性采集的,是在产线持续运行中积累的。产线在跑,数据沉淀,人类在环的反馈同时运转。当积累到足够触发新一轮模型训练的数据量,系统自动启动训练,更新机台模型。这套机制让微亿的模型能力随着产线运行时间线性增长,而不是靠一次性的大规模数据采集来驱动。



 

04.

先工业,后生活


如今,业内已逐步达成共识:物理AI得先在工业里证明自己,再外溢到生活场景!

这个顺序不是策略选择,是物理规律决定的。工业场景边界清晰、结构化、可控,AI不需要考虑那么多长尾问题和开放性场景。产线上是哪种产品就是哪种产品,工艺参数是确定的,质量指标是可量化的。这些条件让工业成为物理AI最好的训练场。

当在工厂里积累的方法论和技术栈足够成熟,自然会向受控的生活场景延伸。微亿希望成为那个当物理AI变成常态时,被业内真心评价为首批真正把物理AI在工业里跑通了的公司。

这不是一句口号,这是微亿一直在做的事。