非营利的AI研究组织EleutherAI上周发布了Common Pile v0.1,这是个AI训练数据集,所搜集的数据全部属于开放授权或公有领域,且利用该数据集训练出的2个7B模型,发现它们的表现并不亚于LLaMA、MPT、PRJ-INCITE或Qwen等知名模型。
EleutherAI创立于2020年,是个非营利的AI研究机构,也被称为OpenAI的开源版。 始发布的Common Pile v0.1收录超过30种来源的超过8TB的纯文本,该数据集采用严格的授权过滤机制,仅保留采用创用CC BY、CC BY-SA或CC0协议的内容,涵盖生物医学领域的PubMed Central、数理科学领域的ArXiv、GitHub Archive、StackExchange、Ubuntu IRC、USPTO专利数据集及维基百科等。
Common Pile v0.1的重点是它们皆属于公开授权及公有领域,明确排除了不符合开放意义的数据,避免侵权问题,并提升训练数据集的透明度。
EleutherAI还利用Common Pile v0.1训练了两个7B参数模型,其中的Comma v0.1-1T以1兆个Token作为训练量,Comma v0.1-2T则使用了2兆个Token进行训练。
当比较Comma v0.1-1T与LLaMA、MPT及PRJ-INCIT等模型时,发现Comma v0.1-1T在ARC-C、MMLU、BoolQ、SIQA、HumEval及MBPP等基准测试上胜出。
若是比较Comma v0.1-2T与OLMo Twin、Llama 2及DeepSeekLLM,Comma v0.1-2T也在ARC-E、MMLU、SIQA及HumEval上的表现最为突出。
EleutherAI认为,使用未授权数据可能引发法律与伦理争议,因此应该创建一套完全由开放授权或是公有领域组成的数据集,而且实验也发现,这些基于开放数据集的模型在许多测试中的表现也与主流模型相当,彰显出开放数据也能训练出高品质的语言模型,将能鼓励社交媒体持续搜集与扩展开放授权数据,朝向合法、可持续及伦理的AI模型发展路线。