以Stable Diffusion AI图像生成工具闻名的Stability AI除了图像生成技术外,其实也有生成声音的AI模型,最近他们就推出新的Stable Audio Open 1.0,以使用非版权内容作训练为特色。

Stability AI在2023年9月就曾经推出他们首个文本到声音的AI生成工具Stable Audio,后来在今年4月3日推出的最新版本Stable Audio 2.0带来了更高的清晰度和更长的声音生成时间。

We're excited to announce Stable Audio Open, an open source model optimised for generating short audio samples, sound effects and production elements using text prompts.

This release marks a key milestone as we further open portions of our generative audio capabilities to…pic.twitter.com/KZlqJdTHiu

— Stability AI (@StabilityAI)June 5, 2024

这次Stable Audio Open则是类似的模型,不过就主打生成音效等较短的片段,擅长生成击鼓、乐器旋律、环境音和其他音效样本,最长可达47秒。此外模型也支持微调功能,用户可以在自己的音效数据上训练模型。例如,鼓手可以使用自己的录音生成独特的节拍,提供更合适的生成结果。

Stability AI音效研究主管Zach Evans说:“我们的目标是让音效研究人员和制作人能够亲手使用我们的一个生成音效模型,加速这些令人难以置信的新工具的研究、采用和实际创意应用。”这个模型为“开源授权”,不过之用去非商业研究用途,商用版本暂时仍然未推出。

来源:Gigazine