由两名韩国青年创立的Nari Labs本周二(4/22)通过GitHub及Hugging Face,开源了具备16亿参数的文本转语音模型Dia,宣称它不仅与Google NotebookLM播客的品质相当,甚至超越了ElevenLabs Studio与Sesame的开源模型。Dia发布48小时便在GitHub上获得超过7,800颗星星,并成为Hugging Face上最受欢迎的模型。

Nari Labs创办者之一的Toby Kim于X上分享了他们的心路历程,这是一个只有1.5人的团队,因为另一人还在当兵,而且完全没有资金,也不是AI专家,是因为受到Google NotebookLM去年9月所发布的播客(Podcast)功能的启发。

Kim说,他们爱上了NotebookLM的播客功能,但想要有更多的声音控制,更自由的剧本,试过了市场上所有的文本转语音(Text-to-Speech,TTS)API,但它们听起来都不像是真正的人类对话,正巧遇见Google的Research Cloud免费供应TPU给研究人员,于是他们开始学习JAX、Flax、并行计算、集群编排及Pallas核心等技术,并在3个月后得到一个经过充分训练的1.6B模型,比预期的还难,却非常值得。

由Nari Labs所构建的Dia模型可直接以文本生成高度逼真的对话,允许使用整调整音频的输出,控制情感与音调,而且还能产生各种非语言交流,像是大笑、咳嗽,或是清清嗓子。

该实验室比较了专门发展自然语音的ElevenLabs Studio模型、Sesame的对话语音模型CSM-1B,以及Dia的表现,显示Dia的确拥有更自然的声调,更栩栩如生的声音表情,也有杰出的声音节奏感。

目前Dia只支持英文,安装该模型的最低系统需求为Windows或Linux操作系统,Python 3.8或以上版本,以及一个Nvidia RTX 3080或以上的GPU,或是直接通过Hugging Face Space试用,该实验室也正在开发可直接供消费者使用的服务。