ChatGPT现在能接受语音、图片输入提示，还会说话

OpenAI周一宣布ChatGPT即将让用户以语音输入指令或上传图片，而且终于能开口说话。

语音、图像识别新功能将在2周内部署给ChatGPT Plus及Enterprise用户，不过OpenAI表示“很快”也会推向开发人员及免费版用户。

支持语音互动和图片识别让ChatGPT有更多样应用。用户可以直接说出想要ChatGPT执行的任务、听它的答案，再和这个聊天机器人来回对话。像是要求它为家人说一个床边故事，或是设置晚餐桌上的辩论。加上图片识别能力则让使用场景更为灵活，像是在旅行途中拍下知名建筑物询问有趣故事，或是拍摄冰箱照片，让ChatGPT建议菜单，并在边做菜时边向它讨教做法。用户也可以拍摄数学习题上传ChatGPT，请它分享解题技巧给大人和小孩。

OpenAI表示，最新的语音能力是在新的语音合成（text-to-speech）模型上开发，它能以数秒钟的语音样本及文本生成逼真的人声。目前OpenAI提供5种人声，每种声音都是OpenAI和专业声优合作开发出来。OpenAI并使用开源语音识别系统Whisper将语音转录为文本。

而图片识别则是以多模GPT-3.5和GPT-4为底层。这些模型将语言理解能力应用在包含文本和图片的段落、屏幕截图及文件上。最新功能允许用户上传多帧图片，或使用其绘图工具引导ChatGPT画一张图。

OpenAI强调，基于技术风险，该公司选择逐步发布这些高端功能，例如语音合成可能给了歹徒诈骗或Deepfake名人的机会，而视觉模型目前仍有对人脸幻觉，以及在重要领域仍依赖模型解释图片的问题。为此，在语音合成上，目前OpenAI仅发展语音对话，但是该公司也在实现其他应用，例如Spotify以OpenAI技术测试podcast的语音翻译功能。至于图片识别，在大规模推广前，OpenAI已展开模型偏激性及科学能力的测试，以探询负责任的用途。

新的视觉识别功能提供给所有平台，包括Windows及移动版App。语音输入功能则只部署到iOS和Android版。要使用图片识别功能，需以App上的照片键拍摄或选择图片。iOS或Android手机版App上则需要先按“+”号。语音输入功能方面，需用户从App的“设置”区“新功能”下加入（opt-in）启动语音对话。之后用户可按下ChatGPT主页右上方的耳机按钮，选择喜欢的声音完成设置。

ChatGPT现在能接受语音、图片输入提示，还会说话

微信扫一扫：分享