文章来源:万象ai发布时间:2025-04-09 16:53:11
2025 年 3 月 20 日,Openai 发布了三款全新的语音模型,包括两款语音转文本模型(GPT-4o-transcribe 和 GPT-4o-mini-transcribe)以及一款文本转语音模型(GPT-4o-mini-tts)。

GPT-4o-transcribe:该模型经过多样化、高质量音频数据集的长时间训练,能够更好地捕捉语音的细微差别,减少误识别,大幅提升转录可靠性。它适用于处理口音多样、环境嘈杂、语速变化等复杂场景,例如客户呼叫中心和会议记录转录等领域。
GPT-4o-mini-transcribe:这是 GPT-4o-transcribe 的精简版本,速度更快、效率更高。虽然其单词错误率(WER)稍高于完整版模型,但仍优于原有的 Whisper 模型,更适合资源有限但需要高质量语音识别的应用场景。
GPT-4o-mini-tts:这款模型首次支持“可引导性”(steerability),开发者不仅可以指定模型“说什么”,还能控制“怎么说”,例如可以预设语音风格为“平静”“冲浪者”“专业的”“中世纪骑士”等,还能根据指令调整语音风格,如“像富有同情心的客服 Agent 一样说话”。
使用真实音频数据集进行预训练,优化模型性能。
增强的蒸馏方法,实现从大模型到小模型的知识转移。
强化学习,提升转录精度并减少“幻觉”现象。
呼叫中心:提供更准确的语音识别和更自然的语音合成,提升客户服务体验。
会议记录:快速准确地将会议语音内容转录为文本。
个性化客服:通过语音风格的定制,提供更具温度和表现力的语音体验。
创意故事讲述:为故事添加生动的语音效果。
GPT-4o-transcribe 的价格与之前的 Whisper 模型相同,每分钟 0.006 美元。
GPT-4o-mini-transcribe 的价格为每分钟 0.003 美元。
GPT-4o-mini-tts 的定价为每分钟 1 美分。
OpenAI 语音模型网站:OpenAI.fm,网站提供了丰富的预设模板,包括人设、语气、方言、发音等设置。用户可以在此体验并制作 GPT-4o-mini-tts 的相关音频。此外,OpenAI 还提供了升级版的 Agent SDK,帮助开发者更便捷地构建语音智能体。
官方网站:http://openai.fm/
官方博客:https://openai.com/index/introducing-our-next-generation-audio-models/
上一篇: OpenAI语音模型GPT-4o-transcribe、GPT-4o-mini-transcribe和GPT-4o-mini-tts的特点、定价和使用场景
OpenAI推出了新一代语音模型,为开发者提供更强大的语音交互能力,并支持语音智能体的开发。这些模型包括两款语音转文本模型(gpt-4o-transcribe和gpt-4o-mini-transcribe)以及一款文本转语音模型(gpt-4o-mini-tts)。它们分别有什么特点呢?
下一篇: MoneyPrinterTurbo:只需提供一个关键词,利用AI大模型,一键生成高清短视频。
MoneyPrinterTurbo 是一个基于 AI 大模型的短视频生成工具,能够一键生成高清短视频,用户只需提供视频主题或关键词,就可以自动生成视频文案、素材、字幕和背景音乐,并合成一个完整的短视频。
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25