Stable Diffusion系列模型向来是文本生成图片AI模型的标杆,最新Stable Diffusion 3虽然性能强劲,但也对运算器材要求极高。最近Stability AI就推出新版本,降低运算门槛。

这次推出的Stable Diffusion 3 Medium规模较之前推出的Stable Diffusion 3 Large模型小,也是系列首个开源模型。Stability AI表示,这个版本的表现与Large版本相近,同时有更高的资源运用效率。

Stable Diffusion 3 Medium包含20亿个参数,通过采用“变分自编码器(VAE)”,在更小的规模下仍然可以提供优秀的生成细节表现,包括克服手部和面部的常见伪影问题。这个模型还能理解涉及空间关系、构图元素、动作和风格的复杂提示,在生成文本时实现“前所未有的效果”,而不会出现伪像或拼写错误。

新模型的运行要求只需要最少5GB的GPU VRAM,而Stability AI建议使用16GB GPU VRAM来运行,这样虽然仍然算是高要求,但已经可以在一般的消费级GPU和企业级GPU上运行。目前这个模型已经可以在Hugging Face上使用,或者通过API和Stable Artisan Discord机器人服务试用。

来源:Stability AI