VLA在ICRA大火:资本在狂欢,工厂却在算账

2026-06-101000人工智能(AI)

近期,全球机器人圈最热的话题莫过于维也纳举行的ICRA 2026。作为机器人领域的“奥斯卡”,今年ICRA收到近5000篇论文投稿,创下历史新高。

最引人注目的变化是:VLA(视觉-语言-动作)相关论文占比接近20%,斯坦福、MIT、清华等顶尖高校纷纷在这一赛道发力,多家创业公司也在大会期间宣布新一轮融资。

学术界的热度传导到产业端,似乎只是时间问题。但在产业一线,另一个问题同样关键:这些在实验室里验证的方向,如何变成工厂里稳定运行的方案?

VLA将视觉、语言、动作统一到一个模型中,让机器人能够通过自然语言理解任务、感知环境并自主执行,是通向通用机器人的重要方向。但学术界的研究范式和工业界的落地要求之间存在天然差异。实验室追求的是技术上限,工厂追求的是稳定下限。

Image
 

 

PART 01

工业VLA,比通用VLA难在哪?

 

通用 VLA 面向开放场景,以泛化能力为目标,容错空间大,对精度、实时性、环境适应性要求宽松,工业 VLA 则要直面产线严苛约束,回答的是“能不能稳定做对一万次”,这也是其远难于通用 VLA 的关键。

微亿智造认为,工业VLA需要完成工业专属多模态数据的深度统一对齐,不仅整合图像、视频信息,还要融合机器人运动轨迹、力控参数、工艺时序、设备状态等多维数据,构建机器人可识别的工业通用语言。

这套技术能力已在实际项目中落地验证。以某全球头部新能源车企大型一体化压铸件项目为例,工件包含近 3000 个检测点位,要求 10 分钟内完成检测与打磨。传统机械臂仅按照固定路径运行,就需耗时一小时。而微亿智造工业具身智能检修一体机器人,依托工业 VLA 技术,机器人先快速扫描识别缺陷,再自动生成打磨轨迹,作业节拍稳定维持在 7-10 分钟,效率比肩熟练工人!

这正是微亿智造工业VLA核心能力的体现:让机器人如同资深技工一般边感知、边判断、边作业,还能在复杂多变的生产环境中始终保持稳定表现!

 

PART 02

23TB真实数据:工业VLA落地的“燃料”

 

为什么很多VLA模型在论文里表现优异,一进工厂就“水土不服”?答案不在算法本身,而在训练数据。实验室里的仿真数据,无法替代产线上真实发生的每一次摩擦、偏移和异常。

据灼识咨询数据,2024年大多数具身智能公司拥有少于5TB的真实工业精标数据。而微亿智造已积累超过23TB,包含超过16亿条精标记录,覆盖质检、打磨、装配、上下料等核心场景。

这些数据不是仿真生成的,而是来自每一个客户项目,每一次成功或失败的操作——包含每一次运行轨迹、异常处置记录、工序的时序参数等。这些不断积累的真实数据正反哺于微亿智造工业VLA的持续进化,让模型从项目初期就“懂”工业。

依托这些数据,微亿智造的机器人已在超过25家世界500强企业的产线上稳定运行。

 

PART 03

VLA模型如何实现“自我进化”?

 

在具身智能的赛道上,先发优势只能赢一时,真正的分水岭在于谁能让数据和场景形成“自我强化”的正循环。了解,微亿智造已经跑通了这个循环:产线上每多跑一台机器人,就多一份真实数据;每多一份数据,模型就聪明一分;模型越聪明,能覆盖的场景就越多;场景越多,回馈的数据又越丰富。这是一个越跑越快、动能越聚越强的飞轮。

这套自进化的数据飞轮优势,在实际产线应用中充分显现。以压铸件检测为例,依托过往数据模型沉淀,微亿智造将新品导入时间从传统的数天缩短至2 小时以内,同时实现 0.2 毫米级的瑕疵识别精度,整体生产效益提升 50% 以上。

ICRA 2026展示了VLA的可能性,这是学术界的重要贡献。而微亿智造正在做的事,是沿着这个方向,在真实的工厂里走出一条可行的路。