文章来源:万象ai发布时间:2025-07-24 15:07:11
你对着家里的机器人说:“去厨房,看看冰箱里还有没有牛奶。”
它不仅准确走到了厨房,还在移动过程中避开了椅子,转身打开冰箱,并回答你:“还有半瓶。”
这不是遥远的科幻,而是视觉语言导航技术的下一站。
由香港大学与上海AI Lab联合提出的VLN-R1,具备将自然语言指令直接转化为第一人称视角下的连续导航动作的能力,无需依赖离散地图,能在复杂环境中灵活感知、决策与行动,实现类人级别的具身智能导航。
在VLN-CE基准测试中,VLN-R1展现出了很强性能,仅用Qwen2-VL-2B模型(20亿参数),通过RFT训练后就超越了7B模型的SFT结果。
更具挑战性的长距离导航中,VLN-R1实现了“跨域迁移”——在R2R上预训练后,仅用1万RxR样本进行RFT,性能就超过了使用完整RxR数据训练的模型,彰显出极强的数据效率。
该研究的核心启示在于:具身智能的关键不是复杂的模块化设计,而是让模型像人类一样,通过“感知-决策-行动”的闭环进行学习。VLN-R1证明,LVLM完全有能力成为这个闭环的“控制中枢”,而时间衰减奖励等机制则为模型注入了对物理世界时序规律的理解。
随着VLN-Ego数据集与配套训练框架的开放,该方法的可复现性和拓展性正在提升。从工厂物流机器人到家庭服务助手,该框架正在促进AI从“数字智能”向“具身认知”跨越。
主页网址:https://vlnr1.github.io/
代码网址:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25