为解决生成式AI高性能模型对内存要求过高问题,NVIDIA公开一项新技术,成功将图像生成模型Stable Diffusion 3.5 Large的显示内存使用量由原来超过18GB大幅削减至11GB,减幅达40%。通过这项量子化技术,NVIDIA期望能令运行高端AI模型变得更加普及和成本更低。

NVIDIA与开发Stable Diffusion模型的Stability AI合作,针对最新版本Stable Diffusion 3.5 Large进行深度优化。他们通过TensorRT工具和RTX GPU上的Tensor核心,将模型数据精度转换为更简化的数值形式。这种技术称为“量子化”,能将原本使用FP32格式的数据转为如FP8或INT8形式,在牺牲部分精度之下换取大幅减少的数据量,达至减省内存需求和提升运算性能等多重好处。

经过优化处理后,Stable Diffusion 3.5 Large模型原本需要超过18GB显示内存,现在经量子化后仅需11GB,即使是搭载12GB VRAM的中端显卡,例如市场售价约港币2,000元级别的RTX 3060,也能顺利运行。不再局限于使用原本价格接近港币一万元等级的高端显卡,令更多创作者及开发者能以相宜成本使用大型生成模型。

这项技术不单优化内存占用,更提升运行性能。NVIDIA表示,在同样硬件环境下,Stable Diffusion 3.5 Large模型的处理速度提升至原来的2.3倍,而中端版本Medium模型也提升至1.7倍。这代表模型不只跑得起,还跑得更快。

经量子化后的优化模型现在已经可以在Stability AI的Hugging Face页面下载使用,供开发者集成至各类应用中。此外,NVIDIA与Stability AI正合作推出一项称为NIM的微服务平台,将于2025年7月推出。届时,用户可以更轻松将模型应用于多种场景,例如网页平台、内容生成工具或企业内部系统。

这些技术突破反映NVIDIA企图在生成式AI应用方面,进一步降低技术门槛与成本门槛,希望能令人工智能模型真正普及至更多创意和实用应用场景。

数据源:NVIDIA