文章来源:08ai导航网发布时间:2025-08-18 14:43:08
8月16日消息,研究机构Ai2现已在GitHub开源了旗下MolmoAct机器人“行动推理模型”(ActionReasoningModel,ARM)模型,该模型主要运用于具身机器人场景,号称可以解决机器人在三维空间中的动作规划与理解问题。
据介绍,与传统仅依赖文字描述推导动作的视觉语言行动模型(VLA)不同,MolmoAct旨在克服语言难以完整表达三维环境深度和距离关系的不足。因此MolmoAct在第一阶段会首先生成由VQVAE预训练得到的空间感知Token,相应Token同时包含几何结构与位置信息,可用于评估物体间的距离,并为后续规划提供基础。
而在第二阶段,模型会在图像空间中生成一系列路径点,作为任务的中间目标,直观展示动作展开的顺序。第三阶段,路径点会被转化为机器人末端执行器或机械爪的低层马达指令,并根据机器人运动学配置进行动作解码。
研究团队指出,在名为SimplerEnv的模拟测试环境中,MolmoAct-7B在训练集未见过的任务中达到了72.1%的成功率,优于PhysicalIntelligence、谷歌、微软和英伟达等实验室的对照模型。在LIBERO模拟平台的多任务与终身学习测试中,经过高效参数微调,平均成功率提升至86.6%。同时,相比业界AI机器人大模型,MolmoAct的训练成本更低:预训练仅使用了2630万样本和256颗H100GPU,大约1天即可完成;微调则只需64颗H100,约2小时即可完成。
此外,为降低机器人操作风险并提升可解释性,MolmoAct在执行动作前会将内部规划的运动轨迹叠加到输入图像上,用户可以直接查看并修正动作方案。同时,用户还可以通过平板等设备使用手绘方式标注目标姿态或路径,模型会即时整合这些标注进行一系列调整。
目前,Ai2已在GitHub同步开源了MolmoAct-7B的完整资源(https://github.com/allenai/MolmoAct),官方强调,这些资源与工具可以帮助其他研究团队在不同机器人平台和任务中充分验证与优化。
相关攻略 更多
最新资讯 更多
可实现三重空间感知:Ai2开源具身机器人AI模型MolmoAct
更新时间:2025-08-18
估值超亿元的割草机器人公司众筹交付遇困,中小玩家动荡潮刚开始
更新时间:2025-08-18
5000亿美元估值傲视群雄,OpenAI员工拟出售价值近60亿美元股份
更新时间:2025-08-18
妈,请不要再用 AI 给我发消息了
更新时间:2025-08-18
Macaron AI 实测:直男觉得不够用,女同事却嫌它太有用
更新时间:2025-08-18
中国空间站首次应用验证大模型“悟空AI”,神二十航天员乘组使用效果良好
更新时间:2025-08-18
GPT-8能治愈癌症?阿尔特曼最新万字采访,揭秘AI发展4大瓶颈
更新时间:2025-08-18
OpenAI:正在让GPT-5变得“更温暖、更友好、不奉承”
更新时间:2025-08-18
OpenAI掌门人曝GPT-6瓶颈,回答黄仁勋提问,几乎为算力“抵押未来”
更新时间:2025-08-18
首届人形机器人“奥运会”来了,选手洋相出尽,能上赛场就赢了?
更新时间:2025-08-18