AI创业公司Stability AI以图像生成软件Stable Diffusion闻名,22日发布下一代Stable Diffusion 3预览,承袭Stable Diffusion系列优点,能够产生更多主题的图像,并提高文本生成的品质和准确性。Stability AI虽未公开展示操作,但已开放想尝试的用户加入等候名单。

Stable Diffusion 3参数从8亿到80亿不等,适合在各种设备上(从智能手机、AI PC到服务器)执行,参数大小与这款模型可以产生多少图像细节的能力有关,较大模型需要GPU加速器有更多VRAM才能运行。

“这是使用新型的diffusion transformer(类似于Sora),并结合flow matching和其他改进”,Stability AI首席执行官Emad Mostaque通过个人X账号表示。由于利用transformer改进,不仅可以进一步扩展并且接受多模态输入。

自2022年以来,可以看到Stability AI推出了一系列图像生成模型:Stable Diffusion 1.4、1.5、2.0、2.1、XL、XL Turbo,直到现在Stable Diffusion 3。Stability AI提供更开放的方案,再到像是OpenAI DALL-E 3这样的图像生成模型,尽管用到受版权保护的训练数据、具有偏见和滥用的可能性而引发争议。Stable Diffusion的模型开放权重且来源可用,这意味着模型可在本地端执行并进行微调,使输出更符合需求。

虽然Stable Diffusion 3还未能广泛开放,但Stability AI表示,一旦测试完成将能免费下载并在本地端执行。“与之前模型一样,这个预览会收集意见,在公开发布之前提高性能和安全性”,Stability AI强调。

(首图来源:Stability AI)