Stability AI公开下一代图像生成模型Stable Cascade，比SDXL更快更好

Stability AI发布新的文本转图像模型Stable Cascade，其创建在Würstchen架构上，可以简单地在消费级硬件上训练和微调。经过官方的测试，Stable Cascade不只性能较好，产生的结果也比SDXL更好。Stable Cascade模型的相关数据已经在GitHub页面上公开，不过仅采用非商用授权，仅允许非商业用途使用。

Stable Cascade将文本转换成为图像，会经过三个步骤A、B与C流程，分别是潜在生成阶段的步骤C，以及潜在解码阶段的步骤A与步骤B。潜在生成阶段中，用户的输入会被转换成为压缩的24x24潜在表示，也就是小型图像数据，这些小型图像数据会被传递给潜在解码阶段。潜在解码阶段的工作则是类似Stable Diffusion变分自编码器（VAE）的角色，将压缩的潜在表示解码成高分辨率图像。

简单来说，Stable Cascade步骤C就是将用户的指令，转换成一张小型且简化的图像草稿，草稿仅包含重要的资讯，接着草稿被输入到步骤A与步骤B，并被加入更多细节并且放大，形成一张详细且高分辨率的图片。由于将文本条件生成的步骤C，以及解码到高分辨率像素空间的步骤A、B分离，因此便可以单独对步骤C进行额外的训练和微调，包括ControlNets和LoRAs的训练。

官方解释，这与训练一个类似大小的Stable Diffusion模型相比，节省的成本可达16倍。虽然步骤A与步骤B也可以选择性进行微调以获得更多控制，但对大多数用途来说，其带来的额外好处有限，因此用户只要训练步骤C，并且使用原始状态的步骤A和步骤B即可达到良好的成果。

Stability AI发布步骤C和步骤B各两种模型，步骤C具有10亿参数与36亿参数模型，而步骤B有7亿与15亿参数两种模型。官方建议用户使用步骤C的36亿参数模型，以拥有最高品质的输出，而对于追从低硬件要求的用户则可以选择10亿参数版本的模型。至于步骤B的两个模型，都能提供良好的结果，只是15亿参数的模型更擅长重建细节。

由于Stable Cascade的模块化方法，推理使用的显卡内存约只需要20 GB，而使用更小的模型则需要的内存量也会降低。

Stable Cascade在与Playground v2、SDXL、SDXL Turbo、Würstchen v2文本转图形生成模型比较，无论是提示词对齐（Prompt Alignment）和美学品质上，Stable Cascade几乎都是表现最佳的模型。而且在推理速度的比较上，即便Stable Cascade最大的模型比Stable Diffusion XL多出14亿参数，仍然具有更快的推理速度。