港大联手月之暗面等开源OpenCUA：人人可造专属电脑智能体

文章来源：08ai导航网发布时间：2025-08-14 17:49:59

刚刚，一篇来自香港大学XLANGLab和月之暗面等多家机构的论文上线了arXiv，其中提出了一个用于构建和扩展CUA（使用计算机的智能体）的完全开源的框架。具体来说，该框架包括：

一个用于捕获人类使用计算机的演示的注释工具

AgentNet，首个涵盖3个操作系统和200多个应用程序/网站的大规模数据集

一个将演示转化为具有长思维链推理的「状态-动作」对的工作流程

使用该框架，他们还构建了一个旗舰模型OpenCUA-32B，其在OSWorld-Verified上达到了34.8%的成功率，创下了新的开源SOTA，甚至在这个基准测试中超越了GPT-4o。

更妙的是，他们完全公开了相关代码、数据和模型！

论文标题：OpenCUA:OpenFoundationsforComputer-UseAgents

论文地址：https://arxiv.org/abs/2508.09123

项目页面：https://opencua.xlang.ai/（包含工具、模型、数据集）

值得注意的是，这项研究共有6位共一作者。项目负责人是香港大学计算机科学助理教授TaoYu（余涛）。另外，月之暗面创始人和CEO杨植麟以及斯坦福大学计算机科学系助理教授杨笛一也在作者名单中。

下面我们就来详细看看这项研究。

OpenCUA框架

下图展示了OpenCUA框架概览。

具体来说，OpenCUA框架包含以下内容：AgentNetTool，如左上角所示，可通过屏幕视频与操作流程捕捉跨操作系统的用户交互。右上角则展示了原始演示被处理成包含推理与历史的「状态–动作」轨迹。右下角展示了AgentNet数据集与基准，其中涵盖多样化的任务，并提供含黄金标准动作的离线评估。最后，左下角则是OpenCUA模型经过训练后，可在真实环境中执行计算机操作任务。

AgentNet数据收集

OpenCUA的目标是将使用桌面计算机的数据扩展到不同的计算机环境和用户场景。很自然地，该团队首先要做的是收集符合自然用户行为的演示，并尽量减少对用户与计算机交互方式的额外限制，以提高数据收集的可扩展性。

为此，他们开发了AgentNetTool并收集了AgentNet数据集，这也是首个大规模桌面智能体任务数据集。

AgentNetTool

AgentNetTool是一个跨平台的标注应用，可记录用户在Windows、macOS和Ubuntu上的交互。它可捕捉屏幕视频、鼠标/键盘操作以及相关元数据，从而实现对真实计算机使用演示的采集，而且这个方法是可以大规模扩展的。

AgentNetTool标注和验证

该团队对原始用户演示进行了处理，得到了干净、可用于训练的「状态–动作」轨迹。生成的轨迹中包含「内心独白式」的思考与操作历史，适用于视觉-语言模型的训练。

原始演示包含高频的屏幕录制与细粒度交互信号（如鼠标移动、点击、滚动、按键等）。一个典型任务可能产生成千上万条底层动作记录，密度过高，训练效率低下。为解决这一问题，该团队提出两种技术方案：

1、动作约简（ActionReduction）

这是该团队开发的一种基于规则的方法，可将密集动作信号约简为更少但更有意义的操作，同时保留必要信息。

将原子操作压缩为高阶操作；

鼠标移动被视为点击/拖拽的前置条件，仅保留起止位置；

滚动事件按方向合并，并累计滚轮数量；

连续按键合并为文本输入字符串，快捷键组合（如CTRL+C）抽象为「热键动作」；

常见的多步手势（如拖拽、双击）也被整合为单一动作。

约简后的动作序列与pyautogui动作空间对齐（详见表1）。

表1：人类操作与对应智能体动作函数

2、状态–动作匹配（State-ActionMatching）

为了将每个动作a_i配对至代表性状态s_i，该团队从屏幕录制中提取关键帧，捕捉动作发生前的系统状态。但如果关键帧直接与鼠标点击时间戳对齐，可能泄露未来信息（例如：鼠标已悬停在按钮上，预测将变得过于容易）。

为避免该问题，他们的做法是在处理鼠标点击时，回溯至鼠标开始移动前的阶段，并向前搜索最后一个视觉上有明显变化的帧，作为该动作的起始状态。任务结束后，再附加一个终止帧及对应的「结束动作」。

AgentNet数据集与测试基准

最终，他们得到了AgentNet数据集和AgentNetBench基准测试集。

数据集涵盖了来自140多款应用和190多个网站的多样化开放领域任务，任务涉及多应用协作流程、专业工具操作以及非通用功能的使用。基准提供任务指令、步骤历史及每一步的多个黄金标准动作，便于高效的离线评估。

图4：AgentNet数据集中任务的领域分布

该数据集共包含22,625条人工标注的计算机使用任务，其中约12,000条来自Windows，5,000条来自macOS，5,000条来自Ubuntu，支持的屏幕分辨率范围从720p到4K。每条轨迹的平均步骤为18.6步，体现了任务本身的复杂性。

如表2所示，与现有的GUI数据集相比，AgentNet是首个具备真实性、复杂性、多样性与多模态特征的桌面端轨迹级数据集。

表2：AgentNet数据集与现有GUI数据集对比

为实现稳定、快速且无需依赖环境配置的评估，他们还构建了AgentNetBench——一个离线的计算机使用智能体评估基准。

该基准是从AgentNet数据集中精选出100个具有代表性的任务构成的，涵盖Windows与macOS平台，任务内容横跨多个应用领域。

该团队表示，每个任务均经过人工审查，明确任务目标并剔除冗余操作。值得注意的是，考虑到计算机操作任务中天然存在多种合理操作路径，他们还在每个步骤上手动提供了多个有效动作选项，以提升评估的灵活性与真实性。

OpenCUA模型

基于上述数据集，该团队打造了OpenCUA智能体模型，其结合了反思式思维链推理、多图像历史以及跨领域数据。模型能够在多个操作系统的真实桌面环境中执行计算机操作任务。

值得注意的是，他们还设计了一条新颖的处理流程，用于为每个任务步骤增强反思式长思维链（reflectivelongCoT）：「生成器」（generator）与「反思器」（reflector）会以迭代方式生成并验证推理过程中，在观察信息与真实动作（ground-truthactions）之间的各个组件。

实验结果与分析

实验基于多个开源的视觉-语言模型进行，包括：KimiVL-A3B、Qwen2-VL-7B-Instruct、Qwen2.5-VL-7B-Instruct和Qwen2.5-VL-32B-Instruct。

其中，KimiVL-A3B采用了混合专家（MoE）架构，拥有总计16B参数，在训练与推理时激活参数为3B，具备一定的计算机操作能力，如对象定位与任务规划。

Qwen2-VL与Qwen2.5-VL是通用型视觉-语言模型（VLM），其中Qwen2.5-VL在数字智能体任务中表现更强，特别擅长高分辨率场景的理解。

该团队对上述模型进行了监督微调，得到多个OpenCUA模型变体：OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B和OpenCUA-32B。

然后，他们在以下多个基准上对这些模型进行了评估，包括在线评估基准、离线智能体评估基准以及GUI定位能力评估基准。

在线智能体评估

OSWorld-Verified：OSWorld最初收集整理了369个人工构建的任务，涵盖大量应用程序，并配有对应的环境配置与评估脚本。OSWorld团队近期对这些任务进行了验证，修复了因依赖过期、评估错误或指令不清导致无法测试的项目，并将改进后的基准发布为OSWorld-Verified。评估结果通过OSWorld团队部署在AWS基础设施上的公开评估平台获得，结果列于表3。

WindowsAgentArena(WAA)：该基准包含154个以Windows为中心的任务，涵盖原生Windows应用以及若干出现在OSWorld中的开源程序，能有效反映智能体在Windows系统上的在线性能。

表3：OSWorld-Verified评估结果

从结果上看，OpenCUA-32B在所有开源模型中取得了最佳表现，平均成功率达34.8%，大幅领先于此前的各类基线模型。同时，它显著缩小了与闭源智能体的性能差距，甚至超越了OpenAICUA。这一结果充分证明了OpenCUA训练流程在可扩展性与性能上的优势。

离线智能体评估

离线评估使用了AgentNetBench，这是该团队创建的CUA离线评估基准，其中包含100个具有代表性任务，覆盖Windows与macOS上的多个领域。结果如下表所示。

表4：AgentNetBench上，各个CUA的性能表现

可以看到，OpenCUA-32B的整体表现最佳，但OpenAICUA在Functionaction成功率上的表现有明显优势。

GUI定位能力评估

该团队也评估了模型在图形用户界面（GUI）中将自然语言指令映射到具体操作的能力，这里使用了三个基准：OSWorld-G、Screenspot-V2、Screenspot-Pro

其中，OSWorld-G包含564个样本，系统性地覆盖了文本匹配、界面元素识别、布局理解以及细粒度操作控制等任务，并提供了解决每个任务所需的界面元素类型注释。Screenspot-V2包含来自移动端、桌面端与网页端的截图，旨在评估跨平台场景下的GUI理解能力。Screenspot-Pro则聚焦于高分辨率桌面环境，尤其强调在专业应用场景中的表现能力。

OpenCUA模型在三个基准测试上的GUI定位性能，并与Qwen2.5-VL模型和UI-TARS进行了对比。

可以看到，新提出的方法能够随着训练数据规模的扩大而有效提升模型性能。

较高的Pass@N表现表明，OpenCUA-7B在测试阶段具备良好的扩展潜力（test-timescaling），即在允许更多尝试次数或更长推理路径的情况下，其性能仍可进一步显著提升。

OpenCUA-Qwen2-7B在OSWorld基准上的Pass@N性能曲线（temperature=0.1）

OpenCUA-Qwen2-7B在OSWorld基准上的Pass@N性能曲线（temperature=0）