高效训练LLM，Galore登上Hugging Face集成Transformers程序库

研究人员日前提出一种新的模型训练策略GaLore（Gradient Low-Rank Projection），在大型语言模型高效训练方面向前迈出重要的一步，尤其可用消费级硬件，例如家用计算机的高端显卡训练数十亿参数的模型，减少优化器状态下的内存占用，为无法取得高端计算资源的研究人员开拓新视野。

GaLore被提出后，目前开始与Hugging Face平台的Transformers程序库集成，以升级大型语言模型训练功效。

Hugging Face近日博客文章展示Galore集成Transformers程序库的完整运行范例，用在imdb数据组预训练Mistral-7B模型。GaLore不久后将会纳入BitsandBytes程序库，BitsandBytes则是CUDA自定义函数的轻量级封装。

日前发布的《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》论文显示，GaLore在优化器状态下将内存使用量减少多达65.5%，同时在LLaMA 1B和7B架构下使用最多19.7B token的C4数据组进行预训练，依然保持良好性能，及在GLUE任务上微调RoBERTa的效率和性能。与BF16基准相比，8位元的GaLore进一步减少优化器内存多达82.5%，总训练内存则减少63.3%。

通过GaLore还能通过家用计算机的高端显卡（例如NVIDIA RTX 4090）训练大型语言模型，研究人员已证明在具有24GB内存的GPU预训练70亿参数模型是可行的。

随着大型语言模型的规模越来越大，若对所有模型参数进行训练，成本势必非常高昂，研究人员设法减少内存使用量，于是GaLore这套方法获得高度期待。

（首图来源：pixabay）