首页 > AI教程资讯

谢赛宁团队新作：不用提示词精准实现3D画面控制

文章来源：万象ai发布时间：2025-07-14 16:32:00

视觉生成迈向多模态、3D语义与交互融合的新智能创作范式

曾几何时，用文字生成图像已经变得像用笔作画一样稀松平常。

但你有没有想过拖动方向键来控制画面？

像这样，拖动方向键（或用鼠标拖动滑块）让画面里的物体左右移动：

还能旋转角度：

缩放大小：

这一神奇操作就来自于谢赛宁团队新发布的BlenderFusion框架，通过结合图形工具(Blender)与扩散模型，让视觉合成不再仅仅依赖文本提示，实现了精准的画面控制与灵活操作。

图像合成三步走

BlenderFusion“按键生图”的核心并不在于模型自身的创新，而在于其对现有技术（分割、深度估计、Blender渲染、扩散模型）的高效组合，打通了一套新的Pipeline。

这套Pipeline包含三个步骤：先将物体和场景分离→再用Blender做3D编辑→最后用扩散模型生成高质量合成图像。

接下来看看每一步都是怎么做的吧！

第一步：以物体为中心的分层。（Object-centricLayering）

第一步是将输入的图像或视频中的各个物体从原有的场景中分离，并推断出它们的三维信息。

具体来说，BlenderFusion利用现有强大的视觉基础模型进行分割和深度估计：用SegmentAnythingModel（SAM）分割画面中的物体，用DepthPro模型进行深度推断赋予物体深度。

通过对每一个被分割出的物体进行深度估计，将来自图像或视频的2D输入投影到3D空间，从而为后续的3D编辑奠定基础。

这种做法避免了从头训练3D重建模型，充分利用了现成的大规模预训练能力。

第二步：基于Blender的编辑（Blender-groundedEditing）

第二步是将分离出的物体导入Blender进行各种精细化编辑。在Blender中，既可以对物体进行多种操作（颜色、纹理、局部编辑、加入新物体等），也可以对相机进行控制（如相机视点和背景变化）。

第三步：生成式合成（GenerativeCompositing）

虽然通过Blender渲染后的场景在空间结构上高度准确，但外观、纹理和光照仍然相对粗糙。

因此，在流程的最后一步，BlenderFusion引入了扩散模型（SDv2.1）对结果进行视觉增强。

为此，BlenderFusion提出了双流扩散合成器（dual-streamdiffusioncompositor）。

该模型同时接收：原始输入场景（未编辑）和编辑后的粗渲染图像。通过对比两者，模型学习在保持全局外观一致性的同时，仅在需要编辑的区域进行高保真改动。这样可以避免传统扩散模型“重绘全图”导致的失真，也防止未修改部分的退化。

一些trick

此外，为了提高BlenderFusion的泛化性，论文中还透露了两项重要的训练技巧：

源遮挡（SourceMasking）：在训练时随机遮蔽源图部分，迫使模型学会基于条件信息恢复完整图像。

模拟物体抖动（SimulatedObjectJittering）：模拟物体的随机偏移和扰动，提高对相机和物体的解耦能力。这一组合显著提升了生成结果的真实感和一致性。

结果演示

BlenderFusion在针对物体和相机操控的视觉生成中取得了不错的效果。

正如我们在文章开头的demo中所演示的，通过任意控制方向键来控制物体在图像中的位置，画面保持了较强的一致性与连贯性。

此外，BlenderFusion还能够在各种复杂的场景编辑中保持空间关系和视觉连贯性，主要包括：

单幅图像处理：灵活地重新排列、复制和变换物体，以及改变相机视角。

多图像场景重组：组合任何图像中的物体以创建全新的场景。

泛化：这些编辑功能成功地推广到训练期间未见过的物体和场景。

在AI视觉合成越来越卷的当下，BlenderFusion就像给创作者多了一只“第三只手”。

用户不再被提示词困住，也不需要反复试错就能拼出理想画面。

从物体分层到三维编辑，再到高保真生成，这套流程不仅让AI图像合成更“听话”，也让玩法更自由。

或许，你的下一次生图将不再是“遣词造句”，而是能像搭积木一样，把每个细节都亲手摆到位。

论文地址： https://arxiv.org/abs/2506.17450 项目页面： https://blenderfusion.github.io/#compositing一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法！

— 完 —

专属AI产品从业者的实名社群，只聊AI产品最落地的真问题扫码添加小助手，发送「姓名+公司+职位」申请入群～

进群后，你将直接获得：

这个AI能救命！提前6个月发现胃癌病灶，突破医学影像认知，达摩院做成了

上一篇: 这个AI能救命！提前6个月发现胃癌病灶，突破医学影像认知，达摩院做成了

医生看不见，但AI看见了衡宇发自凹非寺|公众号QbitAIAI新进展，救命的那种。现在，只需做一次体检时常规的CT检查，再用AI分析，就有可能在癌症还没有露出明

AI重塑合辑｜从技术热潮到产业范式转移，WAIC共探企业新质生产力

下一篇: AI重塑合辑｜从技术热潮到产业范式转移，WAIC共探企业新质生产力

AI已从可选项变为战略必选项WAIC2025世界人工智能大会论坛：2025年7月26日-28日上海世博中心展览：2025年7月26日-29日上海世博展览馆202

相关攻略更多

热门AI工具更多

最新资讯更多

PhotoG - AI图片生成

PhotoG - AI图片生成

AI工具

更新时间：2025-01-08