一雪前耻，Stability AI开源Stable Diffusion 3.5

提供AI图片生成的创业公司Stability AI本周宣布开源最新版模型Stable Diffusion 3.5，修正之前版本品质低落的问题。

6月份Stability AI发布第一个开源模型Stable Diffusion 3 Medium，但是未能满足社交媒体期望，像是生成的人物身形怪异、手指变形、或是未能按照提示生成图像等，迫使该公司为此致歉。原因可能出于开源版本只有20亿参数，效果远不如付费版本。

为此Stability AI决定重新开发一个版本，而非以修补方式强化原来的Stable Diffusion 3 Medium。该公司强调3.5版更能反映其以门槛低、多数应用场景免费的高端工具帮助开发人员和创作者的承诺，也鼓励开发人员将之用于微调、优化、LoRA（Low-Rank Adaptation，深度学习模型的微调法）、应用或创作。

最新版本模型包含二款多模态大型语言模型Stable Diffusion 3.5 Large（8B）及Stable Diffusion 3.5 Large Turbo（8B）。其中Stable Diffusion 3.5 Large为多模态扩散Transformer（MMDiT）文本转图片模型，使用三种预训练固定式text encoder及QK-normalization（范式）方法提升训练稳定性。Stable Diffusion 3.5 Large Turbo则是在Stable Diffusion 3.5 Large基础上，加上对抗性扩散蒸馏（adversarial diffusion distillation）方法，以提升图片画质、类别和复杂提示理解力，以及资源效率，而且可减少推论步骤。

Stable Diffusion 3.5经由宽松Stability AI社交媒体授权开源，开发人员可以从Hugging Face下载Stable Diffusion 3.5 Large及Large Turbo，并在GitHub下载推论程序代码。