Nova基础模型添新成员──Nova Sonic,亚马逊将语音识别、理解及生成集成在单一模型,使AI能够听得懂、并且产生更像人们谈话的语音对话。
亚马逊指出,Nova Sonic不太容易出现语音识别错误的状况,即使面对说话含糊不清或在嘈杂环境说话,它也能准确理解说话者意图。Nova Sonic能够判别人类对话的细微差异,包括说话者的自然停顿和犹豫、等待适当时机发言,还能优雅地插入对方谈话。此外,Nova Sonic还能产生文本转录,供开发者在不同应用场景使用。
相较竞争对手的语音模型,Nova Sonic将客户指令对应不同API的表现卓越,这种能力使Nova Sonic能够判断何时需要从网络获取即时资讯、解析专有数据源,或在外部应用程序执行时选用合适工具完成任务。
亚马逊称Nova Sonic是目前市场上成本效益最高的语音模型,成本约是OpenAI GPT-4o的20%左右。
亚马逊资深副总裁暨首席科学家Rohit Prasad告诉外媒TechCrunch,Nova Sonic一部分已被应用在升级版Alexa+ 其中,也是亚马逊发展AGI(Artificial General Intelligence,通用人工智能)的策略之一。
Nova Sonic通过Amazon Bedrock平台向客户提供服务,并通过一个新的API对外开放,帮助客户简化语音应用程序的开发,例如用于客服或开发涵盖旅游、教育、医疗保健、娱乐等产业的AI代理。
Excited to introduce a new addition to the Amazon Nova family – Nova Sonic – a speech-to-speech model that makes it easier for developers to build voice-powered apps and AI agents that are more useful, natural, and engaging.
Gone are days that required developers to play…
— Rohit Prasad (@RohitPrasadAI) April 8, 2025
语音模型Nova Sonic。
另在形象生成方面,亚马逊发布Nova Reel 1.1版本,比起1.0版本改进形象品质和延迟等问题。新版可将多个6秒短视频剪辑在一起,进一步生增长达2分钟的多镜头视频,各个镜头保持一致风格。
形象生成模型Nova Reel发布1.1版本。
像是ChatGPT高端语音模式背后的模型,比起Alexa、Siri的对话表现更为自然,更能理解人们谈话,这让亚马逊、苹果不得不奋起直追,前者将以Nova Sonic以及逐步开放的Alexa+ 来服务客户。
(首图来源:pixabay)