文章来源:万象ai发布时间:2025-04-10 13:24:04
MoshiVis 是一个在Moshi基础上开发的一款视觉语音模型,并保持了Moshi的低延迟和自然对话能力,能够以自然对话风格讨论图像内容。支持多轮对话,可以描述图片的文字内容并回答有关于图片的问题。
它通过交叉注意力机制将视觉信息融入语音流,同时保持低延迟和低内存占用。MoshiVis 提供了多种后端支持(如 PyTorch、Rust、MLX),并发布了预训练模型和合成视觉对话数据集,适用于实时语音交互场景。

视觉与语音结合:MoshiVis 在 Moshi 的基础上增加了视觉理解能力,能够将图像信息融入语音对话中。通过扩展核心 Transformer 架构,引入交叉注意力机制,将视觉信息注入语音流中。
低延迟与低内存占用:为了保持低延迟并减少内存使用,MoshiVis 的交叉注意力投影权重在各层之间共享,并通过门控机制调节视觉输入流。
自然对话风格:模型在融入视觉能力的同时,保留了 Moshi 原有的自然对话风格。
基础模型:基于 Moshi,一个 7B 参数的语音-文本基础模型。
视觉编码器:使用 PaliGemma2 家族的预训练冻结 400M 视觉编码器。
适配器参数:在 Moshi 基础上增加了约 206M 的适配器参数,用于视觉信息的处理。
交叉注意力机制:通过交叉注意力模块将视觉信息注入语音流,同时通过门控机制调节视觉输入的影响。

模型变体:发布了基于 Moshika(女声)的 MoshiVis 模型,包含完整的模型权重,包括语音编解码器、文本分词器、图像编码器和基础 Moshi 模型。
后端支持:提供了三种后端支持,包括 PyTorch、Rust 和 MLX,支持不同的量化格式(如 BF16、Q8_0 等)。
许可证:模型权重(不包括视觉编码器)在 CC-BY 4.0 许可下发布,视觉编码器在 Gemma 许可下发布。
WebUI 前端:提供了 WebUI 前端,支持回声消除,提升模型表现。用户可以通过预构建的静态版本或自行编译源代码来使用。
后端运行:
PyTorch:需要约 24GB GPU 内存,不支持量化。
Rust:支持 GPU 加速,需要 Rust 工具链和 CUDA(或 macOS 上的 Metal)。
MLX:支持 bfloat16 和量化(q4、q8)格式。
运行命令:提供了详细的运行命令,用户可以根据需要选择不同的后端和量化格式。
GitHub项目:https://github.com/kyutai-labs/moshivis
HuggingFace模型:https://huggingface.co/collections/kyutai/moshivis-v01-67cef4acae6a5d75d6d6c883
演示:https://vis.moshi.chat/
论文:https://arxiv.org/abs/2503.15633
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25