文章来源:万象ai发布时间:2025-03-13 11:21:43
Llasa是由香港科技大学音频实验室开发的开源文本转语音(TTS)系统,基于 LLaMA 架构,结合了 XCodec2 语音标记技术,能够生成高质量、自然流畅、富有感情的语音,提高了语音合成的自然度、韵律准确性和情感表达能力,生成效果比较自然。
高质量语音合成:能生成自然流畅的语音,支持中英文双语,语音自然度和情感表达出色。
情感表达:可合成带有快乐、悲伤、愤怒等情感色彩的语音,让语音更自然生动。
语音克隆:只需15秒声音样本,就能高度准确地克隆声音,保留原声音色和情感特征。
零样本学习:对没见过的说话者或情感也能进行语音合成,无需额外微调。
长文本支持:能处理长文本输入并生成连贯语音输出,适用于有声读物、语音播报等场景。
架构:基于单层向量量化(VQ)编解码器和单个Transformer架构,与标准LLaMA模型完全对齐。
语音分词器:用XCodec2将语音波形编码为离散标记,保留语义和声学信息。
训练与推理扩展:增加模型规模(如1B、3B、8B参数)或训练数据量(如25万小时语音数据),提升语音自然度和情感表达能力。
自回归生成:逐个生成语音标记,保证语音在语义和韵律上与输入文本一致。
Llasa有1B、3B和8B参数版本,支持中英文,可满足不同硬件资源和应用场景需求。
适用于虚拟现实、游戏、无障碍服务、客户服务以及教育等领域以及适合做有声读物或语音助手。
智能语音助手:Llasa TTS能让智能设备或软件有自然流畅的语音交互功能,使用户体验更好。
有声读物与在线教育领域:它能把文本内容转化成生动语音,用于有声读物制作和在线教育,方便学生通过听来学习。
语音播报与客服:Llasa TTS可用于新闻播报、交通信息提示和客服系统,让信息传递更高效。
游戏与娱乐:它能为角色或虚拟形象配上个性化语音,增强沉浸感。
广告与市场营销:企业能用Llasa TTS生成广告语音,提升品牌宣传效果。
语音克隆与内容创作:Llasa TTS支持零样本语音克隆,只要15秒左右音频样本就能克隆特定人声的音色和情感,可用于广告配音、视频制作或个性化语音内容创作 。
GitHub仓库:https://github.com/zhenye234/LLaSA_training
HuggingFace模型库:https://huggingface.co/collections/HKUSTAudio/llasa
在线体验Demo:https://huggingface.co/spaces/srinivasbilla/llasa-3b-tts
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25