文章来源:万象ai发布时间:2025-07-24 15:35:59
今天,Gemini 家族迎来了一个新成员:Gemini Robotics On-Device。
这是谷歌 DeepMind 首个可以直接部署在机器人上的视觉-语言-动作(VLA)模型,可以帮助机器人更快、更高效地适应新任务和环境,同时无需持续的互联网连接。
从名字也能看出来,Gemini Robotics On-Device 属于 Gemini Robotics 系列。该模型于今年三月发布,基础模型是具备多模态推理能力的 Gemini 2.0。
据介绍,Gemini Robotics On-Device 展现出了强大的通用灵活性和任务泛化能力,并且经过优化,可在机器人机体上高效运行。
由于该模型无需数据网络即可运行,因此它对延迟敏感型应用非常有用,可确保在连接中断或零连接的环境中保持稳健性。
对此,网友自然是好评多多:
对于开发者,谷歌还将发布 Gemini Robotics SDK,可用于轻松评估 Gemini Robotics On-Device 在其任务和环境中的表现。另外,开发者还可使用该 SDK 在 DeepMind 的 MuJoCo 物理模拟器中测试该模型,并快速将其适应到新领域 —— 只需 50 到 100 个演示即可。
顺带一提,加州大学伯克利分校、谷歌 DeepMind、多伦多大学、剑桥大学联合推出的 MuJoCo Playground 刚刚获得了今年的机器人科学与系统会议(RSS 2025)杰出演示论文奖。
论文标题:Demonstrating MuJoCo Playground
论文地址:https://www.roboticsproceedings.org/rss21/p020.pdf模型功能和性能
Gemini Robotics On-Device 是用于双臂机器人的基础模型,其设计目标是最大限度地减少计算资源需求。它基于 Gemini Robotics 的任务泛化和灵活性能力,并且:
针对快速运行灵巧操作实验而设计。
可通过微调来提升性能,从而适应新任务。经过优化,可在本地运行并实现低延迟推理。DeepMind 进行了不少视觉、语义和行为泛化能力实验,整体来看,Gemini Robotics On-Device 在这些广泛的测试场景中表现强大:能够遵循自然语言指令,并完成诸如拉开袋子拉链或折叠衣服等高度灵巧的任务 —— 所有这些操作均可直接在机器人上运行完成。
即使是本地运行的 On-Device 模式,Gemini Robotics On-Device 也表现出了相当不俗的泛化性能。
可以看到,相比之前最佳的本地端机器人模型,Gemini Robotics On-Device 的优势非常明显。
在更具挑战性的分布外任务和复杂的多步骤指令方面,Gemini Robotics On-Device 也优于其他本地端方案。
当然,如果开发者无需严格要求在本地运行模型,也可以使用 Gemini Robotics 模型。对该模型我们就不过多赘述了,详情可参阅技术报告:
https://arxiv.org/pdf/2503.20020
可适应新任务,可跨具身泛化
Gemini Robotics On-Device 也是 DeepMind 推出的首个可供微调的 VLA 模型。虽然许多任务可以开箱即用,但开发者也可以选择调整该模型,从而获得更佳性能。
该模型只需 50 到 100 个演示即可快速适应新任务,这表明该模型能够将其基础知识泛化到新任务。
DeepMind 在七项不同难度的灵巧操作任务上测试了该模型,包括拉开午餐盒拉链、画卡片和倒沙拉酱。
下图展示了 Gemini Robotics On-Device 模型的任务适应性能,其中使用的示例少于 100 个。
他们还研究了让 Gemini Robotics On-Device 模型适应不同的机器人。训练时,他们采用的是 ALOHA 机器人,但实验表明能够进一步将其调整用于双臂 Franka FR3 机器人和 Apptronik 的 Apollo 人形机器人。
在双臂机器人 Franka 上,该模型可以执行通用指令,包括处理之前未见过的物体和场景、完成诸如折叠连衣裙之类的灵巧任务,或执行需要精准度和灵活性的工业皮带装配任务。
Apollo 人形机器人则是完全不同的机器人形态,而该模型也能相当好的适应。同一个通用模型可以遵循自然语言指令,并以通用方式操控不同的物体,包括之前未见过的物体。
DeepMind 表示:「Gemini Robotics On-Device 标志着在使强大的机器人模型更易于获得和适应方面迈出了一步。」
看起来,我们离真正的具身智能时代又更近了一步。
Gemini 模型的其它更新
除了 Gemini Robotics On-Device,谷歌 DeepMind 还进行了一个可能不受免费用户欢迎的更新:下调免费可用额度。
博主 @ai_for_success 发现,Gemini 2.5 Flash 的免费可用额度从每日 500 次请求腰斩到了每日 250,而 Gemini 2.0 Flash 的免费可用额度更是从 1500 膝斩至 200。
https://x.com/ai_for_success/status/1937493142279971210
谷歌 AI Studio 和 Gemini API 产品负责人 Logan Kilpatrick 回应称这是他们的策略:「随着新模型的推出,降低或取消上一代模型的免费套餐。」
另外,谷歌今天还宣布在谷歌 AI Studio 和 Gemini API 中推出了图像生成模型 Imagen 4 和 Imagen 4 Ultra。
目前我们已经可以在谷歌 AI Studio 中免费试用它们。
这里我们也简单测试了一下,让 Imagen 4 Ultra 生成了一张包含猫、机器人与外星人的彩色水墨画:
参考链接
https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/
https://x.com/GoogleAI/status/1937554536966619399
https://x.com/OfficialLoganK/status/1937620224758759750
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25