OpenAI升级语音模型API　可调整语调、辨认口音、准确度更高

OpenAI于稍先前推出新一代语音模型，通过API向全球开发者开放。此套模型包括语音转文本及文本转语音功能，提升语音代理的性能及应用范围。新模型在语音识别准确度及可靠性上超越现有基准，特别适用于客户服务及会议记录等场景，另外这次也开放新功能，首次允许开发者自定义语音风格。

OpenAI最新推出的gpt-4o-transcribe及gpt-4o-mini-transcribe模型，在语音转文本方面显著提升表现。根据多项基准测试，如FLEURS，其词错率 (Word Error Rate, WER) 较原有的Whisper模型大幅下降，展现更佳的语言识别能力。这些模型针对口音、嘈杂环境及语速变化等挑战改善，适用于客服中心及会议笔记转录等场景。