OpenAI gpt-realtime语音模型上线，Realtime API支持SIP与MCP，价格下修20%

OpenAI宣布Realtime API正式推出，并发布新一代语音对语音模型gpt-realtime，主打以单一模型直接处理与产生音频，取代传统由语音转文本、文本再转回语音的流程。官方表示，这种架构可降低延迟、提升对话自然度，并在稳定性上符合企业导入需求，定价也同步调整，音频输入每百万Token 32美元、音频输出每百万Token 64美元，与先前的预览版本相比下修约20%，而缓存输入则维持每百万Token 0.40美元，方便长对话控制成本。

Gpt-realtime语音模型针对客服、助理与教育等常见应用场景进行调校，在语音表现与理解能力较之前版本有明显提升。模型能依指示改变语速与语气，甚至在同一句中切换语言，对于需要准确重复电话号码或识别非语言信号如笑声的场景也更强健。

功能调用能力也得到强化，不仅能在正确时机调用正确工具，还能支持异步处理，避免等待回应时中断对话流程。根据OpenAI内部测试，模型在Big Bench Audio、MultiChallenge Audio与ComplexFuncBench Audio等基准测试的准确率，比起2024年底的预览版有明显提升。

在API功能方面，Realtime API添加形象输入，开发者可在对话中加入照片或截屏，让模型理解画面内容或读取其中文本。此外，API支持远程MCP服务器，开发者只需在工作阶段设置服务器位置与授权，即可挂载工具并即时使用，不必再自行撰写集成程序。

OpenAI同时添加两个新声线Marin与Cedar，并更新既有声音的自然度应对不同场景需求。另一项重点是支持SIP（Session Initiation Protocol），让语音代理可直接连接公用电话网络或PBX系统，拓展至传统客服与电信应用。

OpenAI表示Realtime API内置多层防护与即时分类器，当对话中出现违规内容便会立即终止，并支持欧盟数据留存，符合企业隐私要求。API也提供更细致的上下文管控机制，能设置智能Token限制与多轮截断，协助降低长对话的计算资源消耗。