文章来源:08AI导航网发布时间:2025-04-09 17:32:33
Stable Virtual Camera 是由 Stability AI 推出的一款用于NVS 的多视角扩散模型。它能够根据任意数量的输入视角及其对应的相机参数,生成目标相机视角下的新图像。当所有相机形成一条轨迹时,生成的视角在 3D 上具有一致性、时间上平滑,并且正如其名称所暗示的那样——“稳定”,能够生成无缝的轨迹视频。
多视角输入:可以接受从 1 到 32 张输入图像,性能随着输入视角的增加而提升,尤其是在处理大型场景时。
灵活的图像分辨率:尽管模型仅在 576×576 的正方形图像上进行训练,但能够以零样本的方式生成不同宽高比的目标视角。
长视频生成与闭环一致性:能够生成长达 1000 帧的视频,并在相机返回到同一位置时保持 3D 一致性。
采样多样性:在给定稀疏输入视角时,能够捕捉视角合成的不确定性,并生成不同的可能场景。
基准测试:建立了一个全面的基准,用于在不同数据集和设置下评估 NVS 方法。Stable Virtual Camera 达到了新的最佳性能。
广告和营销:快速生成吸引人的产品展示视频。
内容创作:帮助艺术家和设计师将静态图像转化为动态视频。
教育和培训:将教材中的静态插图转化为 3D 视频,增强学习体验。
数字电影和 3D 动画:为影视制作提供新的可能性。
代码:从 GitHub 克隆代码。链接见文章末尾。
模型权重:从 Hugging Face 下载模型文件。下载链接见文章末尾。
运行以下命令安装所需依赖:
pipinstall-rrequirements.txt交互式使用(Gradio 演示)
启动 Gradio 演示:
pythongradio_demo.py通过图形界面上传图片并设置参数,生成 3D 视频。
命令行使用(CLI)
使用命令行运行:
pythondemo.py--data_path--output_path--camera_path示例:
pythondemo.py--data_path./input_images--output_path./output_video--camera_pathspiral输入:支持 1 到 32 张 2D 图像,需提供相机参数。
输出:生成不同宽高比(如 1:1、9:16、16:9)的 3D 视频,支持长达 1000 帧。
GitHub 代码仓库:https://github.com/Stability-ai/stable-virtual-camera
Hugging Face 模型页面:https://huggingface.co/stabilityai/stable-virtual-camera
项目主页:https://stable-virtual-camera.github.io/
论文:https://arxiv.org/abs/2503.14489
相关攻略 更多
最新资讯 更多
AI眼镜 “百镜大战” 打响!小小米眼镜官方微博上线引发市场热潮,产业链有望迎来快速发展期
更新时间:2025-04-19
新春第一课!自治区科协举办人工智能科普报告会
更新时间:2025-04-19
加速人工智能赛道布局!东莞市政府高规格召开新春第一场新闻发布会
更新时间:2025-04-19
东莞2025年“一号文”发布 聚焦“人工智能+先进制造”
更新时间:2025-04-19
马斯克:无人机和人工智能将主导未来战争 美国要加大投资
更新时间:2025-04-19
法国印度将联合主持AI行动峰会
更新时间:2025-04-19
法印将联合主持AI行动峰会,法媒:法欧希望借此峰会确立自身竞争地位
更新时间:2025-04-18
OpenAI前高管创立的AI公司据称洽谈融资 估值或达200亿美元
更新时间:2025-04-18
谷歌放弃 “不开发武器 AI” 承诺引争议,吴恩达表态支持
更新时间:2025-04-18
外交部:欢迎各国来华出席2025世界人工智能大会
更新时间:2025-04-18