OpenAI 推出语音模型全家桶-北京着陆云科技有限公司

OpenAI 推出语音模型全家桶

2025-03-22 18:41:50行业资讯

美东时间3月20日，OpenAI 举行技术直播，推出了三款全新语音模型，构建了完整的语音智能体生态，标志着 OpenAI 距离其 “AI 智能体” 的愿景更进一步。具体如下：

1、GPT-4o Transcribe：语音转文本模型，是高性能版本。它基于最新的语音模型架构，经过海量音频数据训练，能处理复杂语音信号并准确转换为文本。其训练数据涵盖多种语言和方言，在不同语言环境下的转录任务中表现出色。在英语、西班牙语中的单词错误率仅有2%左右，在普通话中的错误率为7%左右。

2、GPT-4o Mini Transcribe：语音转文本模型，是 GPT-4o Transcribe 的精简版本。它通过模型压缩技术，减小了模型大小，提高了运行速度并降低了资源消耗，更适合在资源受限的设备上运行，如移动设备或嵌入式系统，同时也能满足实时性要求较高的应用场景。每分钟仅需 0.3 美分，性价比更高。

3、GPT-4o Mini TTS：文本转语音模型。该模型不仅能将文本内容转换为自然流畅的语音，还允许开发者通过指令控制语音的语调、情感和风格，使得语音 Agent 能根据不同情境和用户需求，调整语音表达方式，更好地传达信息和情感。

这些新模型在之前版本的基础上取得了明显进步。语音转文本模型的准确度明显高于 OpenAI 之前发布的语音转文本模型 Whisper，在多种语言中实现了更低的词错误率，且在捕捉口音和不同语音方面表现更好，在混乱环境中也能有较好的表现，同时产生幻觉的概率也降低了。文本转语音模型则能提供更细致入微、听起来更逼真的语音，比前一代语音合成模型更 “可操控”。

为了让开发者更便捷地构建语音智能体，OpenAI 对之前发布的 Agent SDK 进行了重大更新。新的 Agent SDK 深度整合了最新的语音转文本和文本转语音模型，支持双向流式传输，音频输入和语音输出更加实时，还提供了丰富的示例代码和详尽的文档，并且与 OpenAI 调试 UI 无缝集成，方便开发者追踪语音交互全过程，分析各个环节。