GitHub开发者Lvmin Zhang与斯坦福大学Maneesh Agrawala合作研发最新“FramePack”技术,利用视频扩散模型中的固定长度时域上下文,显著提升视频生成的效率。根据实测,这项基于130亿参数模型的技术,能够在6GB VRAM(显卡内存)的显卡上生增长达60秒的视频。

FramePack是一种神经网络架构,通过多阶段增强策略,实现了本地AI视频生成。目前底层架构应用腾讯混元模型,但现有的预训练模型也可通过FramePack进行微调,以适应不同需求。

传统的视频扩散模型生成视频时,需要对先前生成的带有噪音的帧进行处理,再预测下一帧的画面。每生成一帧所需的上下文帧数会随着视频长度的增加而增大,这使得VRAM需求高企,通常需要至少12GB VRAM。若VRAM不足,生成的视频将会很短、品质较差,且处理时间较长。FramePack则通过压缩输入帧,根据其重要性调整上下文长度,大幅降低VRAM需求,计算消耗与图片扩散模型相似。

除此之外,FramePack还能有效缓解“漂移”(drifting)现象,这是指随着视频长度增加,画面品质下降的问题。这项技术能在不显著牺牲品质的情况下,生成更长时间的视频。用户能够即时查看每一帧生成后的画面,方便进行预览和调整。

FramePack支持FP16、BF16数据格式,并能与RTX 30、RTX 40、RTX 50系列显卡兼容,除RTX 3050 4GB外,大部分现代显卡都能应用这项技术。虽然目前尚未在RTX 20系列及更旧显卡上进行验证,也没有涉及AMD、Intel处理器的需求,但这对于一般用户来说,已经足够支持日常需求。Windows及Linux操作系统也均可使用这项技术。

在性能方面,RTX 4090经过Teacache增强后,每秒可以生成大约0.6帧。意味着生成速度会受到显卡性能的影响,但每帧生成后都能即时显示画面,为用户提供直观的视觉反馈。

目前的模型对生成速度有一定限制,但FramePack仍让AI视频生成技术变得更加普及,使更多消费者能够享受视频创作的乐趣。

数据源:Tom's Hardware