Hugging Face宣布,创业公司Physical Intelligence开发的π0(念作Pi-Zero)机器人模型已可集成到Hugging Face的开发组件LeRobot。
π0(以下将称Pi0)与π0-FAST是LeRobot存储库的第一批机器人基础模型,使Hugging Face生态系有了通用机器智能(generalist robotic intelligence)模型。
人形机器人创业公司Physical Intelligence成员来自Google DeepMind、Tesla和X,公司宗旨是开发出能结合通用人工智能(AGI)的机器人,让用户通过AI助理下指令代为执行任务。这家创业公司在最新募集资金中获得4亿美元投资,使公司市值来到了24亿美元。最新一批金主包括了OpenAI和Jeff Bezos及数家投资银行。
最新发布的Pi0是一种为通用型机器人控制而设置的视觉语言行为(Vision-Language Action,VLA)模型。VLM和VLA模型都是以transformer为基础,最大差别在行为表现。VLM虽也可处理和生成多模态(图片和文本)表现,但欠缺和真实世界的互动。VLA则是以机器人数据训练的模型。该公司的通用型机器人模型进一步以不同种机器人数据训练而成,可提升模型的适应性、效率和性能。
Physical Intelligence说明,Pi0在预训练的VLM模型上使用新的流匹配(flow-matching)架构,以承袭Internet规模的语义知识来生成行为,使机器人可以不同形貌执行灵巧的操作任务。明确而言,Pi0以7种机器平台和68种不同任务的数据训练。而且在预训练后具有强大的零样本和微调性能,它能依据人类语言指令和高端VLM策略(policy),以及微调来学习新技能。以Pi0模型为基础的机器人可执行复杂的真实世界任务,像是折叠衣服、清理桌面、将商品装袋、组合纸箱或收拾物体。
图片来源/Physical Intelligence
Hugging Face首席执行官Clement Delangue指出,这是第一次机器人基础模型通过开源平台开放大众使用。该公司希望借此模型改变机器人学习和执行任务的做法。
π0与其自动回归版的π0-FAST(Frequency-space Action Sequence Tokenization)模型,都已可在Hugging Face LeRobot存储库访问。