人工智能研究机构Ai2开源MolmoAct模型,其被定位为行动推理模型(Action Reasoning Model,ARM),针对机器人在三维空间中的动作规划与理解而设计。MolmoAct模型采用三阶段空间感知流程,结合视觉与语言能力,提升机器人针对物理环境的空间推理精度,并提供完整的模型权重、程序代码与训练数据,方便研究人员与开发者验证与扩展。
MolmoAct在设计上旨在克服传统视觉语言行动模型(VLA)仅依赖文本描述推导动作的限制。Ai2指出,语言虽适合抽象推理,但难以完整表达三维环境的深度与距离关系,因此MolmoAct在第一阶段先输出由VQVAE预训练取得的空间感知Token,这些Token同时包含几何结构与位置资讯,可用于评估物体间距离并作为后续规划的基础。
第二阶段,模型在形象空间中生成一系列路径点,作为任务中间目标,直观描绘动作展开的顺序。该规划过程与具体机器人形态无关,使模型具备跨硬件的泛化能力。第三阶段则将路径点转换为机器人末端执行器或夹爪的低端马达指令,并依照机器人运动学配置做动作解码。
研究人员指出,在名为SimplerEnv的模拟测试环境中,MolmoAct-7B在应对没在训练时看过的任务时,成功完成的比例达到72.1%,优于Physical Intelligence、Google、微软与Nvidia等多家实验室的对照模型。在LIBERO模拟平台进行的多任务与终身学习测试中,通过参数高效率微调,平均成功率达86.6%。此外,与部分大型模型相比,MolmoAct的训练成本更低,预训练仅使用2,630万样本与256颗H100 GPU,约1天即可完成,微调则用64颗H100仅需约2小时。
为了降低机器人操作风险并提升可解释性,MolmoAct在执行动作前会将内部规划的移动轨迹叠加在输入形象上,用户可直接查看并修正动作计划,也能通过平板、手机或笔记本以手绘方式标示目标姿态或路径,模型会即时集成这些标注进行调整。
Ai2此次同步发布MolmoAct-7B的完整开源资源,包括训练检查点、评测工具及约1万段经过行动推理链标注的机器人操作视频数据集,部分数据来自精选的Open-X Embodiment子集。官方强调,这些数据与工具可协助研究团队在不同机器人平台与任务中验证并微调模型。