研究人员日前提出一种新的模型训练策略GaLore(Gradient Low-Rank Projection),在大型语言模型高效训练方面向前迈出重要的一步,尤其可用消费级硬件,例如家用计算机的高端显卡训练数十亿参数的模型,减少优化器状态下的内存占用,为无法取得高端计算资源的研究人员开拓新视野。
GaLore被提出后,目前开始与Hugging Face平台的Transformers程序库集成,以升级大型语言模型训练功效。
Hugging Face近日博客文章展示Galore集成Transformers程序库的完整运行范例,用在imdb数据组预训练Mistral-7B模型。GaLore不久后将会纳入BitsandBytes程序库,BitsandBytes则是CUDA自定义函数的轻量级封装。
日前发布的《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》论文显示,GaLore在优化器状态下将内存使用量减少多达65.5%,同时在LLaMA 1B和7B架构下使用最多19.7B token的C4数据组进行预训练,依然保持良好性能,及在GLUE任务上微调RoBERTa的效率和性能。与BF16基准相比,8位元的GaLore进一步减少优化器内存多达82.5%,总训练内存则减少63.3%。
通过GaLore还能通过家用计算机的高端显卡(例如NVIDIA RTX 4090)训练大型语言模型,研究人员已证明在具有24GB内存的GPU预训练70亿参数模型是可行的。
随着大型语言模型的规模越来越大,若对所有模型参数进行训练,成本势必非常高昂,研究人员设法减少内存使用量,于是GaLore这套方法获得高度期待。
(首图来源:pixabay)