Stability AI发布新的文本转图像模型Stable Cascade,其创建在Würstchen架构上,可以简单地在消费级硬件上训练和微调。经过官方的测试,Stable Cascade不只性能较好,产生的结果也比SDXL更好。Stable Cascade模型的相关数据已经在GitHub页面上公开,不过仅采用非商用授权,仅允许非商业用途使用。

Stable Cascade将文本转换成为图像,会经过三个步骤A、B与C流程,分别是潜在生成阶段的步骤C,以及潜在解码阶段的步骤A与步骤B。潜在生成阶段中,用户的输入会被转换成为压缩的24x24潜在表示,也就是小型图像数据,这些小型图像数据会被传递给潜在解码阶段。潜在解码阶段的工作则是类似Stable Diffusion变分自编码器(VAE)的角色,将压缩的潜在表示解码成高分辨率图像。

简单来说,Stable Cascade步骤C就是将用户的指令,转换成一张小型且简化的图像草稿,草稿仅包含重要的资讯,接着草稿被输入到步骤A与步骤B,并被加入更多细节并且放大,形成一张详细且高分辨率的图片。由于将文本条件生成的步骤C,以及解码到高分辨率像素空间的步骤A、B分离,因此便可以单独对步骤C进行额外的训练和微调,包括ControlNets和LoRAs的训练。

官方解释,这与训练一个类似大小的Stable Diffusion模型相比,节省的成本可达16倍。虽然步骤A与步骤B也可以选择性进行微调以获得更多控制,但对大多数用途来说,其带来的额外好处有限,因此用户只要训练步骤C,并且使用原始状态的步骤A和步骤B即可达到良好的成果。

Stability AI发布步骤C和步骤B各两种模型,步骤C具有10亿参数与36亿参数模型,而步骤B有7亿与15亿参数两种模型。官方建议用户使用步骤C的36亿参数模型,以拥有最高品质的输出,而对于追从低硬件要求的用户则可以选择10亿参数版本的模型。至于步骤B的两个模型,都能提供良好的结果,只是15亿参数的模型更擅长重建细节。

由于Stable Cascade的模块化方法,推理使用的显卡内存约只需要20 GB,而使用更小的模型则需要的内存量也会降低。

Stable Cascade在与Playground v2、SDXL、SDXL Turbo、Würstchen v2文本转图形生成模型比较,无论是提示词对齐(Prompt Alignment)和美学品质上,Stable Cascade几乎都是表现最佳的模型。而且在推理速度的比较上,即便Stable Cascade最大的模型比Stable Diffusion XL多出14亿参数,仍然具有更快的推理速度。

官方提到,这代表Stable Cascade在架构设计和高度压缩的潜在空间上,都有较好的效率,可以在保持高品质输出的同时,又能维持高效的推理速度。而除了标准文本转图像生成之外,Stable Cascade也具有生成图像变体,还有以图像生成图像的能力。

Stability AI不只发布Stable Cascade,也同时将用于训练、微调、ControlNet和LoRA的所有程序代码一并公开,以降低研究人员实验此架构的障碍。