首页 > AI教程资讯

机器人视觉语言导航进入R1时代!港大联合上海AILab提出全新具身智能框架

文章来源:万象ai发布时间:2025-07-24 15:07:11

你对着家里的机器人说:“去厨房,看看冰箱里还有没有牛奶。”

它不仅准确走到了厨房,还在移动过程中避开了椅子,转身打开冰箱,并回答你:“还有半瓶。”

这不是遥远的科幻,而是视觉语言导航技术的下一站。

由香港大学与上海AI Lab联合提出的VLN-R1,具备将自然语言指令直接转化为第一人称视角下的连续导航动作的能力,无需依赖离散地图,能在复杂环境中灵活感知、决策与行动,实现类人级别的具身智能导航。

在VLN-CE基准测试中,VLN-R1展现出了很强性能,仅用Qwen2-VL-2B模型(20亿参数),通过RFT训练后就超越了7B模型的SFT结果。

更具挑战性的长距离导航中,VLN-R1实现了“跨域迁移”——在R2R上预训练后,仅用1万RxR样本进行RFT,性能就超过了使用完整RxR数据训练的模型,彰显出极强的数据效率。

具身智能的未来:从导航到认知的全链路升级

该研究的核心启示在于:具身智能的关键不是复杂的模块化设计,而是让模型像人类一样,通过“感知-决策-行动”的闭环进行学习。VLN-R1证明,LVLM完全有能力成为这个闭环的“控制中枢”,而时间衰减奖励等机制则为模型注入了对物理世界时序规律的理解。

随着VLN-Ego数据集与配套训练框架的开放,该方法的可复现性和拓展性正在提升。从工厂物流机器人到家庭服务助手,该框架正在促进AI从“数字智能”向“具身认知”跨越。

主页网址:https://vlnr1.github.io/

代码网址:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1