文章来源:万象ai发布时间:2025-03-22 14:25:26
斯坦福吴佳俊团队打造AI版“爱丽丝梦游仙境”巨作!
仅用一张图or一段文字就能沿相机轨迹生成无限连贯3D场景:

只需输入一段古诗词,诗中场景立刻映入眼帘:

而且还是来回式的,可以再倒回去的那种:

同一起点可以进入不同场景:

真实场景也可以,其中的人物阴影等细节都毫无违和感:

方块世界更不在话下,仿佛打开了《我的世界》:

这项工作名为WonderJourney,由斯坦福吴佳俊团队和谷歌研究院联合打造。

除了可以从任意位置开始,无限生成多样化且连贯的3D场景,WonderJourney根据文本描述生成时,可控性也很高。
只要将鼠标悬停在视频上,就可以暂停自动滑动。
这项工作的发布让网友们直呼“难以置信”?——项目代码还没正式发布,就收获了200+星:

AI研究员Xander S****brugge惊讶之余表示:这是生成式AI和传统3D技术的完美结合。

要知道,之前的工作都是专注于单一类型场景,WonderJourney可谓打开了新世界的大门。
那这究竟是如何做到的?
生成无限连贯3D场景要解决的一大难题是:如何在保持元素多样性的同时,生成符合逻辑的场景元素组合。
这当中需要判断将要生成的元素空间位置的合理性,还需要处理好新旧场景的遮挡关系、视差等几何关系。
可以看到WonderJourney在这方面的处理上非常细致:

无论什么风格都能轻松驾驭:

能够做到这些,关键在于WonderJourney的模块化流程。
总的生成过程分为“确定要生成什么对象”、“把这些对象放在哪里”、“这些场景如何在几何上连接”三步。
需要以下三个模块配合完成:
Scene description generation:使用大语言模型(LLM)根据当前场景生成下一个场景的文本描述。Visual scene generation:将文本描述转换为3D点云表示的场景。Visual validation:使用VLM验证生成的场景,检测到不合理的结果启动重新生成。
具体来说,在Scene description generation模块,使用预训练好的LLM输入当前场景描述,通过自回归生成下一个场景,其中包含风格、物体、背景三部分的描述。
此外,还要将自然语言描述进行词类过滤,只保留名词和形容词;每生成一个新场景描述,会更新场景描述记忆。
在Visual scene generation模块,先是将当前图像/文本转换为3D点云表示。

然后使用depth refinement增强对象边界的depth不连续性,通俗来讲就是让边界两侧的深度对比更加明显,从而使过渡更加逼真。
之后使用text-guided inpainting基于文本描述生成新场景图像。
研究人员还设计了depth consistency loss和re-rendering consistency机制改进新旧场景遮挡和点云对齐。
最后Visual validation模块,使用VLM提示检测生成图像中的不好的结果,比如画框、模糊等,如果检测到则重新生成场景。
值得一提的是,这三个模块都可用最先进的预训练模型实现、替换,所以不需要任何训练。
由于连贯3D场景生成是一个没有现有可用数据集的新任务,所以研究人员在实验中使用了自己拍摄的照片、来自在线无版权的照片以及生成的图片进行了评估。
此外,使用了两种最先进的连续视图生成方法作为基准:基于图像的InfiniteNature-Zero和基于文本的SceneScape。
定性结果展示了从不同类型输入生成的连贯3D场景序列效果,表明方法可以从任何输入开始生成:

此外,同一输入可生成不同输出,表明方法具有多样性:

研究人员还从生成效果多样性、视觉质量、场景复杂度和有趣度这4个方面进行了人类偏好评估。

结果WonderJourney方法明显优于InfiniteNature-Zero、SceneScape。

相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25