OpenAI 推出语音模型全家桶
2025-03-22 18:41:50行业资讯

美东时间3月20日,OpenAI 举行技术直播,推出了三款全新语音模型,构建了完整的语音智能体生态,标志着 OpenAI 距离其 “AI 智能体” 的愿景更进一步。具体如下:

1、GPT-4o Transcribe:语音转文本模型,是高性能版本。它基于最新的语音模型架构,经过海量音频数据训练,能处理复杂语音信号并准确转换为文本。其训练数据涵盖多种语言和方言,在不同语言环境下的转录任务中表现出色。在英语、西班牙语中的单词错误率仅有2%左右,在普通话中的错误率为7%左右。

2、GPT-4o Mini Transcribe:语音转文本模型,是 GPT-4o Transcribe 的精简版本。它通过模型压缩技术,减小了模型大小,提高了运行速度并降低了资源消耗,更适合在资源受限的设备上运行,如移动设备或嵌入式系统,同时也能满足实时性要求较高的应用场景。每分钟仅需 0.3 美分,性价比更高。

3、GPT-4o Mini TTS:文本转语音模型。该模型不仅能将文本内容转换为自然流畅的语音,还允许开发者通过指令控制语音的语调、情感和风格,使得语音 Agent 能根据不同情境和用户需求,调整语音表达方式,更好地传达信息和情感。

这些新模型在之前版本的基础上取得了明显进步。语音转文本模型的准确度明显高于 OpenAI 之前发布的语音转文本模型 Whisper,在多种语言中实现了更低的词错误率,且在捕捉口音和不同语音方面表现更好,在混乱环境中也能有较好的表现,同时产生幻觉的概率也降低了。文本转语音模型则能提供更细致入微、听起来更逼真的语音,比前一代语音合成模型更 “可操控”。

为了让开发者更便捷地构建语音智能体,OpenAI 对之前发布的 Agent SDK 进行了重大更新。新的 Agent SDK 深度整合了最新的语音转文本和文本转语音模型,支持双向流式传输,音频输入和语音输出更加实时,还提供了丰富的示例代码和详尽的文档,并且与 OpenAI 调试 UI 无缝集成,方便开发者追踪语音交互全过程,分析各个环节。