可实现三重空间感知：Ai2开源具身机器人AI模型MolmoAct

文章来源：08ai导航网发布时间：2025-08-18 14:43:08

8月16日消息，研究机构Ai2现已在GitHub开源了旗下MolmoAct机器人“行动推理模型”（ActionReasoningModel，ARM）模型，该模型主要运用于具身机器人场景，号称可以解决机器人在三维空间中的动作规划与理解问题。

据介绍，与传统仅依赖文字描述推导动作的视觉语言行动模型（VLA）不同，MolmoAct旨在克服语言难以完整表达三维环境深度和距离关系的不足。因此MolmoAct在第一阶段会首先生成由VQVAE预训练得到的空间感知Token，相应Token同时包含几何结构与位置信息，可用于评估物体间的距离，并为后续规划提供基础。

而在第二阶段，模型会在图像空间中生成一系列路径点，作为任务的中间目标，直观展示动作展开的顺序。第三阶段，路径点会被转化为机器人末端执行器或机械爪的低层马达指令，并根据机器人运动学配置进行动作解码。

研究团队指出，在名为SimplerEnv的模拟测试环境中，MolmoAct-7B在训练集未见过的任务中达到了72.1%的成功率，优于PhysicalIntelligence、谷歌、微软和英伟达等实验室的对照模型。在LIBERO模拟平台的多任务与终身学习测试中，经过高效参数微调，平均成功率提升至86.6%。同时，相比业界AI机器人大模型，MolmoAct的训练成本更低：预训练仅使用了2630万样本和256颗H100GPU，大约1天即可完成；微调则只需64颗H100，约2小时即可完成。

此外，为降低机器人操作风险并提升可解释性，MolmoAct在执行动作前会将内部规划的运动轨迹叠加到输入图像上，用户可以直接查看并修正动作方案。同时，用户还可以通过平板等设备使用手绘方式标注目标姿态或路径，模型会即时整合这些标注进行一系列调整。

目前，Ai2已在GitHub同步开源了MolmoAct-7B的完整资源（https://github.com/allenai/MolmoAct），官方强调，这些资源与工具可以帮助其他研究团队在不同机器人平台和任务中充分验证与优化。