简介
SenseVoice,一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型,enseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测,具有多语种、混合语言、音色和情感控制能力,在零样本语音生成、跨语言语音克隆和指令跟踪方面的能力表现优秀。
FunAudioLLM 通过结合先进的语音理解和生成技术,可以处理复杂的语音任务,并在多种语言环境中实现自然交。
SenseVoice可以应用于语音翻译、情感语音聊天、互动播客和富有表现力的有声读物朗读等。
SenseVoice具有音频理解能力,包括语音识别(ASR)、语种识别(LID)、语音情感识别(SER)和声学事件分类(AEC)或声学事件检测(AED)
SenseVoice性能:
多语言语音识别:经过超过40万小时的数据训练,支持50多种语言,识别性能超越Whisper模型。
丰富转录:
拥有优秀的情绪识别能力,在测试数据上达到并超越目前最好的情绪识别模型的效果。
提供声音事件检测能力,支持bgm、掌声、笑声、哭泣、咳嗽、打喷嚏等各种常见人机交互事件的检测。
高效推理:SenseVoice-Small 模型采用非自回归端到端框架,从而实现极低的推理延迟。处理 10 秒的音频仅需 70ms,比 Whisper-Large 快 15 倍。
便捷的Finetuning:提供便捷的Finetuning脚本和策略,让用户根据业务场景轻松解决长尾样本问题。
服务部署:提供服务部署管道,支持多并发请求,客户端语言包括Python、C++、HTML、Java、C#等。
在aiSHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice上测试了多语言语音识别性能和推理效率,中文和粤语,SenseVoice-Small效果好。
github:https://github.com/FunAudioLLM/SenseVoice
需要网络免费
AI教程资讯更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
AI教程资讯 更多
完美的六边形战士!Intel奉上AI高静游戏本:9大厂力捧
更新时间:2025-07-14
10个帮你做会议记录的AI会议助手工具
更新时间:2024-12-17
从小数据到大模型 希沃“人工智能+教育”应用初显成效
更新时间:2025-06-15
《人工智能法案》将于8月1日在整个欧盟范围内生效
更新时间:2025-07-08
中国AI PC行业研究报告
更新时间:2025-07-08
你会把健康交给人工智能吗?
更新时间:2025-07-08
美股AI概念股盘前跌幅扩大
更新时间:2025-07-08
银行业首家,高盛将试点全球首个AI程序员Devin
更新时间:2025-07-14
OpenAI被曝IMO金牌「造假」,陶哲轩怒揭内幕
更新时间:2025-07-21
IMO怒斥OpenAI自封夺金,“91位评委均未参与评分”
更新时间:2025-07-21