亚马逊推出语音模型Nova Sonic，加入AI语音竞赛

Nova基础模型添新成员──Nova Sonic，亚马逊将语音识别、理解及生成集成在单一模型，使AI能够听得懂、并且产生更像人们谈话的语音对话。

亚马逊指出，Nova Sonic不太容易出现语音识别错误的状况，即使面对说话含糊不清或在嘈杂环境说话，它也能准确理解说话者意图。Nova Sonic能够判别人类对话的细微差异，包括说话者的自然停顿和犹豫、等待适当时机发言，还能优雅地插入对方谈话。此外，Nova Sonic还能产生文本转录，供开发者在不同应用场景使用。

相较竞争对手的语音模型，Nova Sonic将客户指令对应不同API的表现卓越，这种能力使Nova Sonic能够判断何时需要从网络获取即时资讯、解析专有数据源，或在外部应用程序执行时选用合适工具完成任务。

亚马逊称Nova Sonic是目前市场上成本效益最高的语音模型，成本约是OpenAI GPT-4o的20%左右。

亚马逊资深副总裁暨首席科学家Rohit Prasad告诉外媒TechCrunch，Nova Sonic一部分已被应用在升级版Alexa+ 其中，也是亚马逊发展AGI（Artificial General Intelligence，通用人工智能）的策略之一。

Nova Sonic通过Amazon Bedrock平台向客户提供服务，并通过一个新的API对外开放，帮助客户简化语音应用程序的开发，例如用于客服或开发涵盖旅游、教育、医疗保健、娱乐等产业的AI代理。

Excited to introduce a new addition to the Amazon Nova family – Nova Sonic – a speech-to-speech model that makes it easier for developers to build voice-powered apps and AI agents that are more useful, natural, and engaging.
Gone are days that required developers to play…
— Rohit Prasad (@RohitPrasadAI) April 8, 2025

语音模型Nova Sonic。

另在形象生成方面，亚马逊发布Nova Reel 1.1版本，比起1.0版本改进形象品质和延迟等问题。新版可将多个6秒短视频剪辑在一起，进一步生增长达2分钟的多镜头视频，各个镜头保持一致风格。

形象生成模型Nova Reel发布1.1版本。

像是ChatGPT高端语音模式背后的模型，比起Alexa、Siri的对话表现更为自然，更能理解人们谈话，这让亚马逊、苹果不得不奋起直追，前者将以Nova Sonic以及逐步开放的Alexa+ 来服务客户。

（首图来源：pixabay）