OpenAI 发布了三款全新语音模型，包括两款语音转文本模型以及一款文本转语音模型

文章来源：08AI导航网发布时间：2025-04-09 16:53:11

2025 年 3 月 20 日，Openai 发布了三款全新的语音模型，包括两款语音转文本模型（GPT-4o-transcribe 和 GPT-4o-mini-transcribe）以及一款文本转语音模型（GPT-4o-mini-tts）。

OpenAI 发布了三款新一代全新的语音模型.webp

语音转文本模型

GPT-4o-transcribe：该模型经过多样化、高质量音频数据集的长时间训练，能够更好地捕捉语音的细微差别，减少误识别，大幅提升转录可靠性。它适用于处理口音多样、环境嘈杂、语速变化等复杂场景，例如客户呼叫中心和会议记录转录等领域。

GPT-4o-mini-transcribe：这是 GPT-4o-transcribe 的精简版本，速度更快、效率更高。虽然其单词错误率（WER）稍高于完整版模型，但仍优于原有的 Whisper 模型，更适合资源有限但需要高质量语音识别的应用场景。

GPT-4o-mini-tts：这款模型首次支持“可引导性”（steerability），开发者不仅可以指定模型“说什么”，还能控制“怎么说”，例如可以预设语音风格为“平静”“冲浪者”“专业的”“中世纪骑士”等，还能根据指令调整语音风格，如“像富有同情心的客服 Agent 一样说话”。

使用真实音频数据集进行预训练，优化模型性能。

增强的蒸馏方法，实现从大模型到小模型的知识转移。

强化学习，提升转录精度并减少“幻觉”现象。

呼叫中心：提供更准确的语音识别和更自然的语音合成，提升客户服务体验。

会议记录：快速准确地将会议语音内容转录为文本。

个性化客服：通过语音风格的定制，提供更具温度和表现力的语音体验。

创意故事讲述：为故事添加生动的语音效果。

GPT-4o-transcribe 的价格与之前的 Whisper 模型相同，每分钟 0.006 美元。

GPT-4o-mini-transcribe 的价格为每分钟 0.003 美元。

GPT-4o-mini-tts 的定价为每分钟 1 美分。

OpenAI 语音模型网站：OpenAI.fm，网站提供了丰富的预设模板，包括人设、语气、方言、发音等设置。用户可以在此体验并制作 GPT-4o-mini-tts 的相关音频。此外，OpenAI 还提供了升级版的 Agent SDK，帮助开发者更便捷地构建语音智能体。

官方网站：http://openai.fm/

官方博客：https://openai.com/index/introducing-our-next-generation-audio-models/

上一篇: OpenAI语音模型GPT-4o-transcribe、GPT-4o-mini-transcribe和GPT-4o-mini-tts的特点、定价和使用场景

OpenAI推出了新一代语音模型，为开发者提供更强大的语音交互能力，并支持语音智能体的开发。这些模型包括两款语音转文本模型（gpt-4o-transcribe和gpt-4o-mini-transcribe）以及一款文本转语音模型（gpt-4o-mini-tts）。它们分别有什么特点呢？

下一篇: MoneyPrinterTurbo：只需提供一个关键词，利用AI大模型，一键生成高清短视频。

MoneyPrinterTurbo 是一个基于 AI 大模型的短视频生成工具，能够一键生成高清短视频，用户只需提供视频主题或关键词，就可以自动生成视频文案、素材、字幕和背景音乐，并合成一个完整的短视频。