通义万相VACE开源！一款模型搞定多种视频编辑任务

文章来源：08ai导航网发布时间：2025-08-10 07:08:02

此次开源的 Wan2.1-VACE-1.3B 支持 480P 分辨率，Wan2.1-VACE-14B 支持 480P 和 720P 分辨率。通过 VACE，用户可一站式完成文生视频、图像参考生成、局部编辑与视频扩展等多种任务，无需频繁切换模型或工具，真正实现高效、灵活的视频创作体验。

模型设计亮点解读

VCU-更灵活统一的输入范式

我们通过对四类常见任务（文生视频、图生视频、视频生视频、局部视频生视频）的输入形态进行分析和总结，提出了一个灵活统一的输入范式：视频条件单元 VCU。

它将多模态的各类上下文输入，总结成了文本、帧序列、mask 序列三大形态，在输入形式上统一了 4 类视频生成与编辑任务的统一。VCU 的帧序列和 Mask 序列在数学上可以相互叠加，为多任务的自由组合创造条件。

多模态Token序列化，统一建模的关键

如何将多模态输入统一编码为扩散 Transformer 可处理的 token 序列？这是 VACE 需要解决的一大难题。

首先，VACE 对 VCU 输入中的 Frame 序列进行概念解耦，将其分为两类：一类是需要原封不动保留的 RGB 像素（不变帧序列），另一类是需要根据提示重新生成的内容（可变帧序列）。接下来，分别对这三类输入（可变帧、不变帧、Mask）进行隐空间编码，其中，可变帧和不变帧通过 VAE 被编码到与 DiT 模型噪声维度一致的空间，通道数为 16；而 mask 序列则通过变形和采样操作，被映射到时空维度一致、通道数为 64 的隐空间特征。

最后，将 Frame 序列和 mask 序列的隐空间特征合一，并通过可训练参数映射为 DiT 的 token 序列。

上下文适配器微调，高效训练策略

在训练策略上，我们对比了全局微调与上下文适配器微调两种方案。全局微调通过训练全部 DiT 参数，能取得更快的推理速度；而上下文适配微调方案是固定原始的基模型参数，仅选择性地复制并训练一些原始 Transformer 层作为额外的适配器。

实验表明，两者在验证损失上差异不大，但上下文适配器微调具有更快的收敛速度，且避免了基础能力丢失的风险。因此，本次开源版本采用该方法进行训练。

通过本次发布的 VACE 系列模型定量评测可以看出，相比 1.3B preview 版本，模型在多个关键指标上均有明显提升。