OpenAI周一宣布ChatGPT即将让用户以语音输入指令或上传图片,而且终于能开口说话。

语音、图像识别新功能将在2周内部署给ChatGPT Plus及Enterprise用户,不过OpenAI表示“很快”也会推向开发人员及免费版用户。

支持语音互动和图片识别让ChatGPT有更多样应用。用户可以直接说出想要ChatGPT执行的任务、听它的答案,再和这个聊天机器人来回对话。像是要求它为家人说一个床边故事,或是设置晚餐桌上的辩论。加上图片识别能力则让使用场景更为灵活,像是在旅行途中拍下知名建筑物询问有趣故事,或是拍摄冰箱照片,让ChatGPT建议菜单,并在边做菜时边向它讨教做法。用户也可以拍摄数学习题上传ChatGPT,请它分享解题技巧给大人和小孩。

OpenAI表示,最新的语音能力是在新的语音合成(text-to-speech)模型上开发,它能以数秒钟的语音样本及文本生成逼真的人声。目前OpenAI提供5种人声,每种声音都是OpenAI和专业声优合作开发出来。OpenAI并使用开源语音识别系统Whisper将语音转录为文本。

而图片识别则是以多模GPT-3.5和GPT-4为底层。这些模型将语言理解能力应用在包含文本和图片的段落、屏幕截图及文件上。最新功能允许用户上传多帧图片,或使用其绘图工具引导ChatGPT画一张图。

OpenAI强调,基于技术风险,该公司选择逐步发布这些高端功能,例如语音合成可能给了歹徒诈骗或Deepfake名人的机会,而视觉模型目前仍有对人脸幻觉,以及在重要领域仍依赖模型解释图片的问题。为此,在语音合成上,目前OpenAI仅发展语音对话,但是该公司也在实现其他应用,例如Spotify以OpenAI技术测试podcast的语音翻译功能。至于图片识别,在大规模推广前,OpenAI已展开模型偏激性及科学能力的测试,以探询负责任的用途。

新的视觉识别功能提供给所有平台,包括Windows及移动版App。语音输入功能则只部署到iOS和Android版。要使用图片识别功能,需以App上的照片键拍摄或选择图片。iOS或Android手机版App上则需要先按“+”号。语音输入功能方面,需用户从App的“设置”区“新功能”下加入(opt-in)启动语音对话。之后用户可按下ChatGPT主页右上方的耳机按钮,选择喜欢的声音完成设置。