
OpenAI传出大举押注音频AI,这不只是为了让ChatGPT语音对话听起来更自然,根据外媒The Information报道,OpenAI过去2个月内集成多个工程、产品及研究团队,全面重整音频模型,为预计大约1年后推出、以音频为核心的硬件产品做准备。
发展音频模型这个举动反映整个科技产业的发展方向,意即迈向一个屏幕退居次要、音频转为核心的未来。
回顾近几年,智能音箱让语音助理成为超过三分之一美国家庭的日常配备。Meta已为Ray-Ban Meta眼镜加入新功能,通过5颗麦克风数组,协助用户在嘈杂的环境听清楚对话。Google自去年6月起在美测试Audio Overviews,将AI搜索结果转为语音摘要。特斯拉则把Grok聊天机器人集成至电动汽车,打造一个可通过自然对话处理导航、空调等功能的AI助理。
硬件设备外形或许各有不同,然而核心论述一致:音频将成未来界面,不同空间例如住家、车辆,以及像是移动设备、穿戴设备等,都在让音频成为操控界面的一部分。
根据The Information报道,OpenAI计划2026年初推出新一代音频模型,将会具备更自然的声音表现、能像真人对话一样处理插话、甚至能在用户说话的同时提出合适回应,这是目前模型还无法做到的能力。OpenAI同时也构想推出一系列设备,可能包含智能眼镜、无屏幕的智慧音箱,AI助理定位不再只是工具,更像是陪伴者。
去年5月,OpenAI宣布收购由前苹果首席设计师艾夫(Jony Ive)创办的创业公司“io”,并计划打造下一代AI硬件平台,他便将“降低设备成瘾”视为优先目标,并把以音频为核心的设计概念,视为修正过去以来消费性设备错误使用的一次大好机会。
值得关注还有,爆料者近日在X发文称,OpenAI与艾夫合作打造的个人设备,项目代号“Gumdrop”,有望是一款便于随身携带的AI智能笔,可让用户手写笔记,并利用AI技术转为数字文本,上传到ChatGPT进行摘要或其他处理。换句话说,不需要屏幕,通过语音方式也能记录想法,创造更多互动。
AI智能笔原本设置中国厂商立讯精密代工生产,但因制造地点出现意见分歧,改由鸿海接手,在越南的产线进行生产,在美生产也有可能。但对此AI智能笔的规格细节、具体功能等,OpenAI尚未透露更多细节。
(首图来源:shutterstock)










