文章来源:08ai导航网发布时间:2025-08-10 07:08:02
此次开源的 Wan2.1-VACE-1.3B 支持 480P 分辨率,Wan2.1-VACE-14B 支持 480P 和 720P 分辨率。通过 VACE,用户可一站式完成文生视频、图像参考生成、局部编辑与视频扩展等多种任务,无需频繁切换模型或工具,真正实现高效、灵活的视频创作体验。
VCU-更灵活统一的输入范式
我们通过对四类常见任务(文生视频、图生视频、视频生视频、局部视频生视频)的输入形态进行分析和总结,提出了一个灵活统一的输入范式:视频条件单元 VCU。
它将多模态的各类上下文输入,总结成了文本、帧序列、mask 序列三大形态,在输入形式上统一了 4 类视频生成与编辑任务的统一。VCU 的帧序列和 Mask 序列在数学上可以相互叠加,为多任务的自由组合创造条件。
多模态Token序列化,统一建模的关键
如何将多模态输入统一编码为扩散 Transformer 可处理的 token 序列?这是 VACE 需要解决的一大难题。
首先,VACE 对 VCU 输入中的 Frame 序列进行概念解耦,将其分为两类:一类是需要原封不动保留的 RGB 像素(不变帧序列),另一类是需要根据提示重新生成的内容(可变帧序列)。接下来,分别对这三类输入(可变帧、不变帧、Mask)进行隐空间编码,其中,可变帧和不变帧通过 VAE 被编码到与 DiT 模型噪声维度一致的空间,通道数为 16;而 mask 序列则通过变形和采样操作,被映射到时空维度一致、通道数为 64 的隐空间特征。
最后,将 Frame 序列和 mask 序列的隐空间特征合一,并通过可训练参数映射为 DiT 的 token 序列。
上下文适配器微调,高效训练策略
在训练策略上,我们对比了全局微调与上下文适配器微调两种方案。全局微调通过训练全部 DiT 参数,能取得更快的推理速度;而上下文适配微调方案是固定原始的基模型参数,仅选择性地复制并训练一些原始 Transformer 层作为额外的适配器。
实验表明,两者在验证损失上差异不大,但上下文适配器微调具有更快的收敛速度,且避免了基础能力丢失的风险。因此,本次开源版本采用该方法进行训练。
通过本次发布的 VACE 系列模型定量评测可以看出,相比 1.3B preview 版本,模型在多个关键指标上均有明显提升。
如果想要基于 VACE 进行二次开发,可以遵循以下步骤进行使用,首先从 GitHub 下载 Wan2.1 的官方repo,再进入 HuggingFace 或 ModelScope 下载对应的 VACE 模型,在 Wan 的主站也即将支持 VACE 的部分功能。
✅ GitHub:https://github.com/Wan-Video/Wan2.1
✅ 魔搭:https://modelscope.cn/organization/Wan-AI
✅ Hugging Face:https://huggingface.co/Wan-AI
✅ 国内站:https://tongyi.aliyun.com/wanxiang/
✅ 国际站:https://wan.video
相关攻略 更多
最新资讯 更多
通义万相VACE开源!一款模型搞定多种视频编辑任务
更新时间:2025-08-10
搜索帝国的AI战争:谷歌的焦虑时刻
更新时间:2025-08-10
53年、4次转型、0次掉队:SAP跑进AI时代
更新时间:2025-08-10
裁员22%,Chegg输给了AI?
更新时间:2025-08-10
25岁MIT辍学天才一战成名!3年成为90亿美金公司CEO
更新时间:2025-08-09
今天我替煤炭给AI正个名。。。
更新时间:2025-08-09
OpenAI诈骗?GPT-4.1正式上线ChatGPT,网友实测却大呼失望
更新时间:2025-08-09
陶哲轩携AI再战数学!o4-mini秒怂弃赛,Claude20分钟通关
更新时间:2025-08-09
奥特曼最新访谈暗示:OpenAI终极目标是打造订阅制AI服务
更新时间:2025-08-09
谷歌揭开安卓系统的“未来面纱”:让Android界面有情感,让Gemini模型无处不在
更新时间:2025-08-09