首页 > AI教程资讯

你已经是个“成熟的AI”，可以帮我代肝了：智谱AI联合清华大学团队打造视觉大模型CogAgent：可提供《原神》教学辅助

文章来源：万象ai发布时间：2025-03-21 14:07:10

AI奇点网1月2日报道丨近日，清华大学的 KEG 实验室与旗下孵化的人工智能创企智谱 AI 合作，联合推出了新一代视觉GUI Agent图像理解大模型 CogAgent。这款产品在几个月前曾经在圈内引发了小轰动。

所谓的视觉GUI Agent，就是通过大模型参与大规模的图像内容训练，使之可以替代人类完成指定的代理操作的一种大模型技术。

长期对人类行为进行研究发现，人类是通过视觉与GUI交互的。比如，面对一个网页，当给定一个操作目标时，人类会先观察他的GUI界面，然后决定下一步做什么，而不是去扒它冗长的HTML源码。GUI界面天然是为了人类便捷而设计的。也就是说，在GUI场景下，视觉是一种更为直接、本质的交互模态，能更高效完整提供环境信息。

CogAgent就是这样一款基于视觉的GUI Agent。下面的示例展现了其工作路径与能力。用户只需把操作目标“search for the best paper in CVPR 2023”连同当前截图一起丢给模型，CogAgent就能预测出详细的动作，甚至能够把操作元素的精准定位也一同输出！

该模型基于此前推出的 CogVLM，通过视觉 GUI Agent，使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知，从而作出规划和决策。

CogAgent 可以接受 1120×1120 的高分辨率图像输入，具备视觉问答、视觉定位（Grounding）、GUI Agent 等多种能力，在 9 个经典的图像理解榜单上（包括 VQAv2.STVQA，DocVQA，TextVQA，MM-VET，POPE 等）取得了通用大模型能力第一名的成绩。

例如，用户输入一张关于 CogVLM 项目的 GitHub 的图片，然后询问如何给这个项目点“Star”，然后 CogAgent 就会反馈出结果。

例如用户输入一张原神游戏的截图，可以询问“当前任务中的队友是谁?”，CogAgent 会给出相关的回答。

AI大模型能”看懂“游戏界面上展示的GUI信息。具体来说，翻译过来大概是这样的：

用户：Who are the teammates on the current mission? （当前任务中的队友是谁？）

【腾讯云AI绘画使用教学】深入了解腾讯云的AI绘画工具，并实际应用于图像生成工作流丨赠送免费生成次数福利

上一篇: 【腾讯云AI绘画使用教学】深入了解腾讯云的AI绘画工具，并实际应用于图像生成工作流丨赠送免费生成次数福利

近日，由中国信通院开展的“AIGC绘画平台基础能力评估”结果发布，腾讯云AI绘画成为国内首批通过该评估标准的AIGC绘画平台。

OPPO公布AndesGPT大模型最新升级：70亿参数端侧模型，OPPO Find X7系列首发搭载，小布助手能力全面提升

下一篇: OPPO公布AndesGPT大模型最新升级：70亿参数端侧模型，OPPO Find X7系列首发搭载，小布助手能力全面提升

在会上，OPPO 公布了自研的”安第斯大模型“ AndesGPT 的全新升级，为行业内”首个端侧应用70亿参数大模型“的手机厂商。

相关攻略更多

热门AI工具更多

最新资讯更多

PhotoG - AI图片生成

PhotoG - AI图片生成

AI工具

更新时间：2025-01-08