Meta最新开发的生成式语音模型Voicebox,可被应用在语音生成、去噪和内容编辑等各式语音任务,生成高品质的语音,官方提到,Voicebox是第一个未针对特定任务训练,就可以泛化处理各式语音生成任务的模型。由于这个模型过于强大,存在遭到滥用的风险,因此Meta决定不公开Voicebox模型和程序代码,仅公开音频样本和论文供学术研究使用。
类似图像与文本生成模型,只不过Voicebox生成的为语音信号,该模型可以完全从头开始创建6种语言的语音,并且执行去除噪音、内容编辑、风格转换和多样化样本生成等任务。研究人员提到,在Voicebox之前,生成语音的人工智能,都要使用特别准备的训练资料,对每一项语音任务进行针对性训练,而Voicebox则使用了Flow Matching新方法,可直接从原始音频和转录文本中学习。
只要使用原始音频和转录文本就能够进行学习,在音频处理和语音生成上有一定的好处,因为当前许多语音合成以及语音识别模型,需要对训练资料进行繁琐的前处理,并且运用经处理的资料进行训练,而这会大幅增加模型训练成本。
另外,与自我回归模型(Autoregressive Model)不同的是,Voicebox可以修改样本的任意部分,而不只有音频片段的结尾,因此Voicebox在编辑音频和创建长且连续的音频内容上将更具优势,因为自我回归模型通常只能生成和修改一小部分音频,因此需要大量的计算时间,才能生成足够长的音频片段。
Flow Matching方法正是Voicebox强大的原因,该方法能够学习文本和语音之间高度非确定性映射。所谓的非确定映射,指得是文本到语音的非一对一转换关系,像是同一段文本可以被读取来的方式有很多种,以不同的语速、音调、重音和口音表达,就代表了不同的意思。
传统语音模型需要经过对训练资料进行精细后处理,像是标记每个音节和音位的位置,或是由人工以特定的音调和语速读取文本,而这不仅耗费大量时间,也需要专业知识。Voicebox非确定性映射的能力,让模型可以从未经标记的变化中学习,也就是说,研究人员可以用更大范围和多样化的资料学习,并生成更具自然度和表现力的语音。
Voicebox经过5万小时的语音录音训练,这些语音片段来自英语、法语、西班牙语、德语、波兰语和葡萄牙语的公领域录音和转录文本训练。Voicebox在学会根据上下文填充语音后,便能够被用于各种语音生成任务中,只要输入一段语音样本和转录文本,Voicebox就能以该语音的风格朗读取该段文本。Voicebox还能够编辑语音片段,像是重新合成被噪音破坏的段落,或是替换口误的句子。
这个研究的重要性在于,Voicebox是第一个成功泛化语音任务的多功能、高效模型,Meta公开论文详述Voicebox的方法和成果,同时还介绍高效分类器的构建方法,该分类器可以区分Voicebox生成和真实语音。生成语音模型有许多新兴场景可应用,但同时也有被滥用的风险,目前Meta不会公开Voicebox模型和程序代码,但考量促进人工智能社交媒体的研究,因此选择仅发布音频样本和研究论文。