提供AI图片生成的创业公司Stability AI本周宣布开源最新版模型Stable Diffusion 3.5,修正之前版本品质低落的问题。
6月份Stability AI发布第一个开源模型Stable Diffusion 3 Medium,但是未能满足社交媒体期望,像是生成的人物身形怪异、手指变形、或是未能按照提示生成图像等,迫使该公司为此致歉。原因可能出于开源版本只有20亿参数,效果远不如付费版本。
为此Stability AI决定重新开发一个版本,而非以修补方式强化原来的Stable Diffusion 3 Medium。该公司强调3.5版更能反映其以门槛低、多数应用场景免费的高端工具帮助开发人员和创作者的承诺,也鼓励开发人员将之用于微调、优化、LoRA(Low-Rank Adaptation,深度学习模型的微调法)、应用或创作。
最新版本模型包含二款多模态大型语言模型Stable Diffusion 3.5 Large(8B)及Stable Diffusion 3.5 Large Turbo(8B)。其中Stable Diffusion 3.5 Large为多模态扩散Transformer(MMDiT)文本转图片模型,使用三种预训练固定式text encoder及QK-normalization(范式)方法提升训练稳定性。Stable Diffusion 3.5 Large Turbo则是在Stable Diffusion 3.5 Large基础上,加上对抗性扩散蒸馏(adversarial diffusion distillation)方法,以提升图片画质、类别和复杂提示理解力,以及资源效率,而且可减少推论步骤。
Stable Diffusion 3.5经由宽松Stability AI社交媒体授权开源,开发人员可以从Hugging Face下载Stable Diffusion 3.5 Large及Large Turbo,并在GitHub下载推论程序代码。