中国人工智能公司所开发的DeepSeek-R1模型发布以来,相对低廉的硬件与训练成本就能展现高水准推理能力,在市场引发极大震荡。Hugging Face现正根据DeepSeek所公布的研究内容进行逆向工程,试图推出名为Open-R1的开放版本,期望在透明、可验证的环境下让研究社交媒体能更深入了解该突破性技术。
由于DeepSeek-R1以远低于市场预期的成本达到与先进模型相近的推理表现,业界与学界都希望能了解技术全貌,但DeepSeek未公开完整的训练数据集与程序代码,使得外界对其称为开源模型的真实性存有疑虑。Hugging Face工程师认为,如果只发布模型权重与部分技术报告,仍不足以满足真正的开放标准,因而决定通过逆向工程与大规模协作,构建完整可供研究者自行验证与调整语言模型,成为推理模型的开放训练工作管线与数据集。
深度学习社交媒体之所以对此举格外关注,主要是因为DeepSeek-R1在数学、程序开发与科学领域的推理能力,甚至能与知名的OpenAI o1模型一较高下,而开发成本却声称仅有美国人工智能公司花费的一小部分。一旦Hugging Face成功重现Open-R1,研究人员将可确切掌握其中关键架构、训练步骤,以及在有限硬件资源下达到高效训练的方法。
目前Hugging Face团队的做法,是先分析DeepSeek发布的技术报告与模型论文,并尝试从现有权重中推断其训练配方与数据分布。由于DeepSeek并未开放完整的数据集与程序代码,Hugging Face需要召集志愿者,共同整理出可供公开使用的高品质推理数据,借此复刻或接近DeepSeek-R1所使用的多阶段训练策略。
当Open-R1顺利出炉,将不只是一个DeepSeek-R1复制品,更可能在技术透明度与研究价值上进一步超越原始模型。Open-R1可供任何人检阅并改良强化学习流程、语言模型结构以及推理逻辑。这对需要确保模型输出精度与可控性的企业而言相当重要,也进一步突显了开源社交媒体在推动人工智能技术发展史所扮演的关键角色。
Open-R1模型的训练将使用Hugging Face的Science Cluster计算资源,该集群有96个节点,每个节点有8张显卡,共768颗Nvidia H100可用于密集训练,Hugging Face预计在数周内推出第一个可公开测试的原型版本。