首页 > AI教程资讯

多模态大模型推动AI迈向“通感”时代

文章来源：万象ai发布时间：2025-07-09 14:56:27

生成文本的同时，书生大模型还给出了“创作思路”：首先确定图片中描绘的元素；其次，从画面中寻找能够表达出诗人思想情感的元素，如山峰高耸、云雾缭绕、松涛等；第三，根据元素构思诗句；最后，根据诗句的韵律和格律完善表达。

将图像视为新语言，多模态交互降低使用门槛

当人工智能迈入“通感”时代，对人们最近的影响是什么？上海人工智能实验室有关专家表示，书生多模态大模型可以将图像视为一种新的语言，用户可利用自然语言指令，灵活定义和管理任意视觉任务。

打个比方，当你输入一张照片，并用语音“指挥”AI将其转换成一段文字并发送给父母时，它能立即理解并完成指令。多模态交互功能降低了AI任务的门槛，使AI有望成为万千大众都能使用的生产工具。

也就是说，人机交互的“接口”即将改变。过去，我们在不同场景中借助不同软件与虚拟世界相连，这意味着我们还处于图形界面用户时代；未来，多模态大模型将把我们带入自然语言对话界面时代，如钢铁侠拥有了AI助手贾维斯。

AIGC如何引领教育行业的未来变革？

上一篇: AIGC如何引领教育行业的未来变革？

生成式人工智能（aigc）如何引领教育行业的未来变革？ 6月2日，由中国人工智能学会智能教育技术专委会与上海师范大学联合主办的“人工智能与未来教育：基于aigc的教育变革”大会在上海师范大学举行。上海师范大学

OpenAI将推出多模态大模型，志在阻击谷歌Gemini

下一篇: OpenAI将推出多模态大模型，志在阻击谷歌Gemini

谷歌在大约半个月前公布了自家的大模型Gemini，消耗的算力是GPT-4的五倍之多，官方称之为“一种多模态和高效的机器学习工具”。Gemini的开发始于今年四月，谷歌将内部的两个AI实验室谷歌大脑（Google Brain）和Deep

相关攻略更多

热门AI工具更多

最新资讯更多

PhotoG - AI图片生成

PhotoG - AI图片生成

AI工具

更新时间：2025-01-08