近一年来,具身智能毫无疑问成为了国内外产业界、学界和投资界重点关注并大力投入的硬科技赛道之一。各方资源的持续重磅投入让行业发展进入快车道,各家具身智能企业接连发布新品进展,也陆续有不同新创企业获得亿元级别的早期融资。
9月25日,2024百度云智大会“具身智能专题论坛”在北京中关村国际创新中心圆满落幕,本次论坛现场座无虚席,并通过在线直播的方式,吸引了数万网友在线观看。
这是百度智能云首次在一年一度的“云智大会”中设立具身智能这一专题的分论坛,在本次的专题论坛中,来自各界的专家学者对于具身智能的总体发展情况、关键技术问题和自身所在企业的宝贵实践进行了多场重磅分享和精彩对话。
专题论坛现场
在主办单位分享环节,百度智能云分享了他们近一年来对具身智能赛道的一些洞察和实践,并正式对外重磅发布和介绍具身智能赛道解决方案,向外界全面分享了他们作为云厂商对具身智能赛道的思考以及参与推动赛道发展的模式。
在主题分享环节,大会邀请中山大学智能工程学院副教授、博士生导师梁小丹与中金资本执行总经理毛祎琛对具身智能赛道发展现状进行解读。此外,清华大学交叉信息研究院博士生导师/清华大学视觉与具身智能实验室主任/千寻智能联合创始人高阳、北京具身智能机器人创新中心大模型负责人鞠笑竹、星海图联合创始人兼CEO高继扬以及NVIDIA中国区机器人业务负责人李雨倩也分别发表了重要主题分享。
在圆桌对话环节,由主持人BV百度风投高级投资经理轲迪与X Square创始人兼CEO王潜、北京大学计算机学院助理教授/研究员/博士生导师仉尚航、北京银河通用机器人有限公司合伙人/大模型负责人张直政、UniX AI创始人兼CEO杨丰瑜以及面壁智能联合创始人兼CTO曾国洋五位专家学者围绕多个具身智能相关重要技术问题和应用落地展望进行了精彩对话和深度探讨。
▍百度智能云与赛道各方携手加速具身智能新物种进化
百度智能云泛科技业务部总经理张玮首先发表致辞,分享了团队从去年开始投入到具身智能赛道的一些思考判断。他分享了团队去年在投入具身智能赛道的时机选择上结合技术、政策等外部因素的决策判断思考,以及结合赛道的阶段性发展特点,明确百度智能云在该赛道的生态价值定位主要是协同多方合作伙伴一起服务好赛道的整机厂商企业,助力厂商加速构建具身智能机器人产品的系列核心能力,助力加速产品落地进程。
百度智能云泛科技业务部总经理 张玮
▍学界和投资界专家深度分享具身智能赛道总体技术及市场发展情况
中山大学智能工程学院副教授、博士生导师梁小丹,深入剖析了具身智能关键技术发展现状并分享了后续技术发展趋势观点。梁小丹指出,具身智能作为一个高度集成化的系统,其发展离不开硬件、算法及数据等多方面的协同,全面系统分享了具身智能体总体框架以及各方向关键技术。另外也分享了在开源数据、开源仿真和开源模型上已取得的一些工作成果,强调了数据在具身智能发展中的核心地位,指出高质量、多样化的数据集对于训练出高性能的具身智能模型至关重要。
中山大学智能工程学院副教授、博士生导师 梁小丹
中金资本执行总经理毛祎琛也对具身智能赛道的快速发展背景、产业链情况和后续发展趋势进行了深入分享。毛祎琛强调了技术、硬件与场景应用三者的紧密结合对于推动具身智能发展的重要性。她认为,虽然当前行业仍面临数据匮乏、硬件成本高昂等挑战,但随着技术的进步和生态链的逐步完善,具身智能将在工业制造、商业服务等多个领域展现出巨大的商业潜力。特别是中国市场,凭借庞大的需求基础、丰富的应用场景以及政府的支持政策,有望在具身智能领域实现弯道超车。
中金资本执行总经理 毛祎琛
▍百度智能云致力于全方位助力赛道企业构建具身智能机器人产品核心能力
在本次云智大会首次设立的具身智能专题论坛上,主办单位对外重磅发布并介绍了其具身智能赛道解决方案。百度智能云泛科技行业具身智能赛道负责人张龙君首先补充介绍了团队去年决定投入到该赛道时的一些内外部因素考量,以及阐述了结合赛道企业当前的核心重点任务,说明百度智能云当前参与该赛道的生态定位就是助力赛道厂商企业把具身智能机器人产品的一些关键核心能力加速构建好。
基于参与赛道发展的生态定位,张龙君介绍了百度智能云具身智能赛道解决方案,以及在不同合作方向上与赛道企业的合作推进情况。方案着眼于助力赛道厂商更好地解决产品落地面临的一系列挑战,结合百度智能云的优势技术和产品方案,相应可提供赋能的方向主要包括:
1)提供行业领先的文心大模型、合作伙伴面壁智能的端侧大模型,以及百度智能云千帆大模型服务与开发平台助力构建具身大脑;
2)提供云上仿真平台助力企业加速小脑运控算法训练迭代和生态开发者的拓展;
3)提供专业化和规模化的数据采集和数据标注服务助力具身智能数据集建设;
4)提供远场语音交互方案助力整机产品构建出色的人机语音交互体验;
5)提供云管端一体化的安全方案为产品从研发到落地运营全周期保驾护航;
6)提供高性能稳定可靠的云上AI算力及AI Infra技术平台支撑各类模型的高效训练工作;
百度智能云泛科技行业具身智能赛道负责人 张龙君
▍专题分享:围绕具身智能关键的操作能力、数据集建设、落地技术框架和仿真平台开展深度分享
在专题分享环节,首先针对直接决定具身智能机器人产品是否“有用”的核心能力——“操作”展开介绍。清华大学交叉信息研究院博士生导师、清华大学视觉与具身智能实验室主任、千寻智能联合创始人高阳围绕“具身操作框架及操作技能学习的研究与实践”进行了深入分享。高阳指出在机器人技术领域,适应复杂环境的操作能力是关键挑战之一,他介绍了其研究团队早前提出的具身智能操纵框架CoPa,通过利用基础模型中嵌入的常识性知识,CoPa极大地提高了机器人在开放世界场景中的操作能力。此外,高阳还分别介绍了General Flow和具身智能体高效学习的两项技术研究成果,相关技术成果能让机器人从人类操作视频中学习并迁移到新任务中,有效提升了机器人的自主学习能力。
在该专题分享的最后,高阳通过demo视频展示了千寻智能近期对外披露的正研发中的机器人出色的连续长程任务执行能力。另外,他也透露了目前千寻智能AI技术团队正快速扩张,欢迎技术能人的加入。
清华大学交叉信息研究院博士生导师、清华大学视觉与具身智能实验室主任、千寻智能联合创始人 高阳
具身数据集是具身智能技术进步的核心驱动力之一。当前,北京具身智能机器人创新中心正联合产业链各方致力于构建“具身智能机器人规模最大、信息最稠密、最通用的高质量具身智能数据集”,创新中心大模型负责人鞠笑竹博士带来了“大规模具身智能数据集建设实践”的重要专题分享。
鞠笑竹介绍了创新中心对数据集建设工作希望兼顾产业研究和学术研究的思考、业界已有数据集的局限性,重点分享了创新中心在数据集、数据母机、数据应用和数据平台上的全面布局和实践。通过鞠博士的介绍,观众得以一睹作为国内首个设立的省级人形机器人创新中心,该中心在具身智能数据集建设上深入领先的工作。
在分享的最后,鞠笑竹也介绍了正与百度智能云紧密合作推进数据采集工作的情况,在人形机器人和机械臂等多类型本体上快速推进高质量真实数据和仿真数据的规模化采集。
北京具身智能机器人创新中心大模型负责人 鞠笑竹
星海图联合创始人兼CEO高继扬结合团队在具身智能感知和操作算法的领先积累、前沿技术产品落地能力以及自动驾驶大规模量产的宝贵经验,围绕“具身智能技术落地实践及产品商业闭环要素的洞察”展开深度分享。高继扬在分享中提到,星海图目前正专注于打造“一脑多形”具身智能机器人,在具身本体、端到端AI算法、场景解决方案均布局全栈自研,他强调了智能体的智能边界确定的重要性,认为这是新一代具身智能产品研发的逻辑转变。在产品设计上,星海图遵循“智能定义本体”的理念,即围绕智能的需求和边界来设计机器人本体,而非从结构出发。
此外,高继扬还分享了对“智能边际成本”的深刻洞察,认为智能的边际成本决定了公司的竞争力。星海图通过自研全尺寸具身智能本体以及核心零部件,结合仿真和真实数据,致力于降低新任务的学习成本,即数据成本,从而推动产品的快速迭代和商业化进程。
星海图联合创始人兼CEO 高继扬
NVIDIA的Isaac平台广受机器人开发者的欢迎和使用,GTC 2024大会上也公布了针对人形机器人的多项重磅更新。来自NVIDIA中国区机器人业务负责人李雨倩详细介绍了NVIDIA在机器人行业的布局、Isaac平台的优势,以及NVIDIA在加速具身智能应用开发方面的策略和生态合作工作。
李雨倩表示,NVIDIA在机器人行业目前三大布局包括:训练、仿真和Runtime。她特别提到了Isaac平台,包含了机器人仿真平台Isaac Sim和强化学习训练平台Isaac Lab。通过展示一系列应用案例,例如合成数据集,强化学习训练以及人形机器人等,李雨倩展示了Isaac平台在提升机器人AI功能开发效率和性能方面的特有优势。
此外,李雨倩进一步分享了NVIDIA在加速具身智能应用开发方面的策略。她详细介绍了NVIDIA提供的预训练模型和工具链,这些资源可以助力开发者快速搭建智能机器人应用。另外,NVIDIA也在与百度智能云等合作伙伴共同推进云上仿真服务的部署,以提供更加便利的平台来加速具身智能应用的开发。
NVIDIA中国区机器人业务负责人 李雨倩
▍圆桌对话:围绕具身智能技术问题和落地前景展开多元、有深度的对话和畅想
圆桌对话环节,由具备丰富具身智能赛道实践经验的BV百度风投高级投资经理轲迪担任主持人,对话嘉宾由五位研究方向多元的资深技术专家和创业者组成,包括:X Square创始人兼CEO王潜、北京大学计算机学院助理教授/研究员/博士生导师仉尚航、北京银河通用机器人有限公司合伙人/大模型负责人张直政、UniX AI创始人兼CEO杨丰瑜、面壁智能联合创始人兼CTO曾国洋。
圆桌对话专家阵容
BV百度风投高级投资经理 轲迪
在大模型对研究范式的改变这一话题上,张直政认为自大模型出现后,因其通用性和泛化性极强,使得传统方法需要被重新思考。他强调,研究范式正逐渐从过去的针对单一任务开发特定控制算法,转变为基于大模型的训练与系统构建,这对机器人领域带来了巨大影响,促使开发者们更加关注数据与模型的闭环,以及如何在具体场景中部署和应用大模型。
北京银河通用机器人有限公司合伙人 张直政
在技能涌现的可能性与挑战上,王潜指出,技能涌现有两种出现的路径,第一种是在模型泛化性提升的过程中出现的突变,目前大部分模型的泛化性能力普遍局限在适应简单的物理环境和硬件配置变化,以及操作未经训练的新物体上,而泛化性能够提升到自主执行从未示范过的新任务时可以被称为技能涌现。他分享了X Square通过模型基础能力的提升实现了从未报道过的高级泛化和技能涌现的训练实践,他认为这种能力只能通过端到端的统一基础模型,经过足够多样的数据和场景训练,习得物理规律与技能策略的通用结构而实现。第二种实现技能涌现的路径则需要引入含有尝试-评估-纠正的思维链能力。与GPT-4等擅长的语言任务不同,在具身智能任务中实现这类能力需要额外的模型来准确评估状态的转移,因此世界模型将是这条路径上的关键组件。而张直政则分享了银河通用通过大规模仿真合成数据训练模型,已观察到一些未在训练中见过的技能涌现现象,并强调仿真数据在技能涌现研究中的重要性。
X Square 创始人兼CEO 王潜
对于世界模型的重要性和应用方面,王潜分享了X Square训练世界模型及将其应用于具身智能任务的实践,并认为短期内不同任务领域需要模型预测的侧重点不同,因此需要多种不同的世界模型,而未来大一统的全面世界模型则是一种超越人类能力的可能方向。
杨丰瑜认为,世界模型能够学习环境的内部表征并预测未来状态,对实现AI的数据闭环至关重要。他强调,世界模型不仅能够生成数据,还能生成策略与动作,推动具身智能任务的端到端解决。
杨丰瑜同时指出,世界模型的打造任重路远,生成和仿真是两条不同路径。仿真有它的优势,也有不可避免的弊端,它不一定遵从物理世界的规律。其次,在理解真正物理世界变化的规律之后,如何将其做到神经网络里面,做到算法里面,肯定是一个非常长期的过程。今天人类尚未完全探索出世界全面运转的规律,我们只能用先验知识加上神经网络,不断逼近越来越真实和全面的世界模型。未来大一统的世界模型将超出人类想象,这也是驱动无数人为之努力和奋斗的动力源泉。他另外介绍道:“UniX AI现在主要通过真实数据的采集来进行人形机器人的训练,基于独有的视触觉底层大模型Unitouch,指导机器人的操作,目前进展非常良好。UniX AI将加快数据采集的工作,让机器人在家庭等复杂场景中的应用更加全面。”
UniX AI创始人兼CEO 杨丰瑜
曾国洋则进一步指出,世界模型的核心在于对世界变化的建模与理解,尽管目前仍存在很大挑战,但其对未来AI的发展具有革命性意义。
面壁智能联合创始人兼CTO 曾国洋
在讨论中,嘉宾们还就数据在具身智能研发中的重要性发表了各自看法。张直政强调,银河通用在构建具身基础模型阶段,仿真数据的使用比例高达90%以上,以快速有效地将数据量scale up到大模型所需要的量级。
王潜则认为仿真对于高层次决策、导航等任务来说是廉价海量易标注的数据来源,但现实世界数据对于实现高精度操作任务来说尤为重要。同时由于两种数据用于训练模型的效率不同,随着现实世界数据成本的下降,在以通用精细操作为代表的任务中其综合成本有望追平甚至低于仿真数据。
北京大学计算机学院助理教授、研究员、博士生导师、博雅青年学者 仉尚航
在圆桌对话的最后部分,嘉宾们分享了各自的未来愿景及面临的挑战。仉尚航介绍了过去十余年人工智能研究范式的转变,表达了对以具身智能为载体的通用人工智能的期待,并指出当前具身智能研究仍需在数据模型闭环中齐头并进。曾国洋则梦想着打造像《钢铁侠》里面贾维斯一样的智能助手,全面拓展人类能力。杨丰瑜强调了陪伴型机器人在教育、医疗等领域的应用潜力。王潜则从技术角度阐述了大模型对数据多样性的要求。张直政则从商业化角度出发,探讨了数据飞轮构建过程中的挑战与机遇。
▍结语与展望
本次2024百度云智大会“具身智能专题论坛”为产业界、学术界和投资界等各参与方搭建了一个多方交流、碰撞思想的重要平台,取得了圆满成功。
相信本次论坛将成为各方参与具身智能大航海时代过程中的重要一站,以此作为新的起点继续携手加速具身智能新物种的进化,加速奔赴具身智能的星辰大海!