总部位于旧金山的具身智能初创公司Physical Intelligence最近宣布,该公司已通过新一轮融资获得4亿美元(约合28亿元),使其整体估值达到24亿美元(约合170亿元)。本轮融资吸引了来自亚马逊创始人杰夫·贝佐斯以及OpenAI在内的多家重量级投资者。此外两家总部位于纽约的风投公司Thrive Capital和Lux Capital也参与了本轮融资。
▍专注机器人“通用大脑”研发 π0(pi-zero)模型打通机器人底层控制架构
此前Physical Intelligence的联合创始人兼首席执行官卡罗尔·豪斯曼(Karol Hausman)曾表示:“我们的目标远不止于为某一特定机器人设计一个智能大脑,而是打造一个能够控制任何机器人的通用大脑。”
Physical Intelligence一直在致力于通过简化机器人的编程和使用流程,使机器人技术更加普及和易用。Physical Intelligence在解释当中,引用了莫拉维克悖论,即虽然国际象棋比赛或新药发现等任务在人工智能看来可能相对“简单”,但诸如折叠衬衫或清理桌子等日常任务却构成了工程领域最为棘手的问题之一。简单来看,逻辑推理问题可以通过算法高效解决,而让机器人精确地抓取和操纵不同形状和材质的物体仍然需要复杂的感知和控制算法。因此,为机器人打造“通用大脑”显得尤为重要。
在探索通用机器人策略的过程中,目前Physical Intelligence已经取得了初步成果。目前公司推出 π0(pi-zero)模型,它通过将大规模多任务和多机器人数据收集与全新的网络架构相结合,实现了迄今为止最强大、最灵巧的通用机器人策略。π0模型具备以下三点优势:
优势一:π0模型具备跨平台和跨任务的迁移学习能力。该模型通过整合视觉、语言和动作数据,实现了从物体分类到动态操控的多种能力。其训练数据包含来自8种不同机器人的交互数据,以及开放的图像和文本数据集,这使得π0能够在不同的机器人和任务平台上迁移并适应操作。这种跨平台的兼容性使得π0能够处理多种不同类型的机器人配置,包括单臂机器人、双臂机器人和移动机械臂,从而提高了模型的通用性和适应性。
优势二:π0模型在任务处理和指令执行上表现出色。它能够通过“零样本”方式执行任务,即无需特定任务的样本数据即可完成指令,这非常适合在动态环境中直接应用。同时,π0还支持“微调”功能,可以根据具体应用场景进行数据增强训练,从而提高复杂任务的执行效果。这种灵活性和适应性使得π0能够应对各种复杂任务,如叠衣服、收拾桌子、组装盒子等,且在这些任务中表现出色。
优势三:π0模型采用了独特的技术架构和方法。它基于视觉-语言模型(VLM)构建,通过整合视觉、语言和动作数据,实现了复杂任务的操作。在动作输出模块,π0使用了一种基于扩散模型变体的“流匹配”方法,这种方法通过对连续的运动指令建模,实现了高频率的动作控制。这种高频控制确保机器人在动态任务中具备灵活的运动调整能力,从而提高了操作的流畅性和准确性。
此前,Physical Intelligence公司展示了机器人基于π0模型的实际操作演示视频,视频当中,机器人能够顺利完成折叠衣物、组装盒子以及动态地将物品放入容器的作业。
▍Physical Intelligence π0模型对标Open AI ChatGPT
虽然OpenAI加注了Physical Intelligence这家具身智能公司,但显然创始人Karol Hausman不满足Physical Intelligence 170亿元的估值,并认为这只是通用机器人模型的一小步,且仅为初始阶段。
仔细思考不难发现,Physical Intelligence提出的π0与Open AI打造的ChatGPT,在通用性、多任务处理能力、预训练与微调策略、多模态数据处理以及对复杂指令的理解与执行能力方面都表现出区域相似的特征。而Open AI在2024年10月完成66亿美元(约合472亿元)融资之后,其估值已达到1570亿美元(约合1.1242万亿元),这一数字使其成为仅次于字节跳动和SpaceX的未上市独角兽公司之一。
具体来看,这两家公司均采用了大规模数据预训练与微调的方法,以构建具备广泛适用性的模型。ChatGPT通过处理海量文本数据,掌握了丰富的语言知识和对话能力,而π0模型则通过整合视觉、语言与动作数据,使机器人能够理解和执行复杂任务。预训练与微调的策略,使两者都能够在不同场景和任务中展现出强大的泛化能力,体现了通用智能的核心特征。因此两家公司的底层技术逻辑趋于相同。
其次,两者都强调多模态数据处理的重要性。ChatGPT除了能够处理文本数据,还能够理解和生成图像、视频等多媒体内容,尤其是在多模态数据处理方面表现优秀,而π0模型则通过整合视觉、语言与动作数据,使机器人能够更全面地感知和理解物理世界。
更为重要的是,两者都致力于解决通用世界的相关问题。ChatGPT基于对话和生成能力,致力于解决语音交互能力,而π0模型则通过其灵活的机器人策略,通过机器人完成诸如折叠衣物、清洁桌面和组装纸箱等复杂任务。仅从这三方面来看,Physical Intelligence公司显然应该有更加庞大的商业版图。
▍“机器人通用基础模型”板块融资不断 具身智能成全球最热赛道
回顾2024年,通用基础模型在机器人技术领域的应用已经吸引了大量资金的关注。除了Physical Intelligence之外,多家公司也宣布完成最新的融资进展。如美国头部人形机器人开发商Figure AI年初成功融资6.75亿美元,Skild AI获得了3亿美元的融资支持,而OpenAI更是筹集了高达66亿美元的资金,直接使其迈入万亿市值的队伍。
此外,Collaborative Robotics也获得了1亿美元的融资,而埃森哲也为加拿大人形机器人Sanctuary AI提供了资助。而在国内的前三个季度,智元机器人和宇树科技等企业也完成了数亿元以及数十亿元的融资。可以说,就目前来看,机器人通用基础模型是打开机器人通用泛化能力的一把金钥匙。
▍关于Physical Intelligence团队:
联合创始人&CEO Karol Hausman
Hausman是前谷歌DeepMind研究员,拥有深厚的机器人技术背景。作为公司的首席执行官,Hausman领导着Physical Intelligence的发展方向,致力于将通用人工智能带入物理世界。
联合创始人:Sergey Levine
Levine是加州大学伯克利分校的副教授,专注于自主智能体学习复杂行为的算法研究,为Physical Intelligence提供了关键的技术支持和战略指导。
联合创始人:Lachy Groom
Groom是投资人兼支付巨头Stripe前高管,具有丰富的商业和投资经验,Groom在公司的融资和市场拓展方面发挥了重要作用。
此外,Physical Intelligence的团队还包括前谷歌研究科学家Brian Ichter、特斯拉前工程师和Anduril Industries副总裁等来自特斯拉、谷歌DeepMind和X(前身为Twitter)等顶级科技公司的专家。
来源:具身智能大讲堂