哈佛正在发布一个由OpenAI和微软资助的大规模免费AI训练数据集。该项目负责人表示,让所有人都能使用问这个公共领域书籍集将有助于“平衡”AI产业的竞争环境。

哈佛大学周四宣布,将发布一个包含近100万本公共领域书籍的高品质数据集,任何人都可以使用它来训练大型语言模型和其他AI工具。该数据集由哈佛新成立的机构数据倡议(Institutional Data Initiative)创建,并获得微软和OpenAI的资助。它包含了作为Google Books项目一部分扫描的、已不受版权保护的书籍。

哈佛大学的机构数据倡议(Institutional Data Initiative)创建了一个规模庞大的数据库,这个数据库约为恶名昭彰的Books3数据集的五倍大。Books3曾被用来训练像Meta的Llama这样的人工智能模型。这个新的数据库涵盖了各种不同的类型、年代和语言,内容非常丰富多样,既有莎士比亚、查尔斯·狄更斯和但丁等作家的经典名著,也有比较冷门的捷克数学教科书和威尔斯语袖珍词典。

机构数据倡议的执行董事格雷格·莱珀特(Greg Leppert)表示,这个计划的目的是要“平衡竞争环境”,让一般大众,包括人工智能产业的小型参与者和个别研究人员,也能够访问通常只有大型科技巨头才有资源创建的那种经过高度精炼和策划的内容库。“它经过了严格的审查”,他的意思是说,这个数据库的内容品质是有保障的,经过仔细的检查和筛选希望通过提供免费且优质的数据,降低人工智能研究和开发的门槛,让更多人有机会参与其中。

莱珀特认为,这个新的公共领域数据库可以与其他授权材料结合使用来创建人工智能模型。他说:“我认为这有点像Linux已成为世界上许多领域的基础操作系统”,并指出公司仍需要使用额外的训练数据来使其模型与竞争对手的模型区分开来。

微软知识产权副总裁兼副总法律顾问伯顿·戴维斯( Burton Davis)强调,公司对该项目的支持符合其关于为AI创业公司创建“可访问的数据池”并“以公众利益为导向管理”的更广泛信念。换句话说,微软不一定计划用像新哈佛数据库中的公共领域替代品来替换其在自己模型中使用的所有AI训练数据。戴维斯说:“我们使用公开可用的数据来训练我们的模型。”

OpenAI的知识产权和内容主管汤姆·鲁宾 (Tom Rubin)在一份声明中表示,该公司“很高兴”支持这个项目。

随着数十起关于使用受版权保护数据进行AI训练的诉讼在法院中进行,人工智能工具的构建方式未来悬而未定。如果AI公司赢得诉讼,它们将能够继续在不需要与版权持有者完成授权协议的情况下抓取网络数据。但如果他们输了,AI公司可能被迫彻底改革其模型的制作方式。像哈佛数据库这样的一系列项目正在推进,假设无论发生什么,对公共领域数据集的需求都会存在。

除了这批书籍外,机构数据倡议还正在与波士顿公共图书馆合作,扫描数百万篇现在属于公共领域的不同报纸文章,并表示愿意在未来创建类似的合作关系。书籍数据集的具体发布方式尚未确定。机构数据倡议已要求Google在公开发布方面进行合作,但细节仍在商议中。Google全球事务总裁肯特·沃克(Kent Walker)在一份声明中表示,该公司“很荣幸能支持”这个项目。

无论IDI的数据集如何发布,它都将加入一系列类似的项目、创业公司和倡议,这些项目承诺让公司能够在不冒着遇到版权问题的风险的情况下,获得大量高品质的AI训练材料。像Calliope Networks和ProRata这样的公司已经出现,发布授权和管理补偿方案,旨在让创作者和权利持有者因提供AI训练数据而获得报酬。

还有其他新的公共领域项目。去年春天,法国AI创业公司Pleias推出了自己的公共领域数据集Common Corpus,根据项目协调员皮埃尔-卡尔·朗格莱 (Pierre-Carl Langlais)的说法,该数据集包含大约300到400万本书籍和期刊收藏。在开源AI平台Hugging Face上,Common Corpus仅在本月就被下载超过60,000次。上周,Pleias宣布发布其首套在这个数据集上训练的大型语言模型,Langlais告诉WIRED,这些模型构成了“有史以来第一个完全在开放数据上训练并符合欧盟AI法案的模型”。

同样也有努力在创建类似的图像数据集。AI创业公司Spawning今年夏天发布了其数据集Source.Plus,其中包含维基共享资源以及各种博物馆和文件馆的公共领域图像。一些重要的文化机构长期以来一直将自己的文件作为独立项目向公众开放,比如纽约的大都会艺术博物馆。

前Stability AI首席执行官、现在经营一家认证符合道德训练AI工具的非营利组织的艾德·纽顿(Ed Newton-Rex)表示,这些数据集的兴起表明,不需要窃取受版权保护的材料就能创建高性能和高品质的AI模型。OpenAI此前曾向英国立法者表示,如果不使用受版权保护的作品,将“不可能”创建像ChatGPT这样的产品。纽顿说:“这些大型公共领域数据集进一步粉碎了一些AI公司用来为抓取受版权保护作品进行模型训练辩护的“必要性辩护”。”

但他仍然对IDI和类似项目是否真能改变AI训练现状持保留态度。他说:“这些数据集只有在被使用时才会产生积极影响,可能需要与其他数据的授权结合使用,以取代抓取的受版权保护作品。如果它们只是被添加到混合中,成为数据集的一部分,而该数据集还包括世界创作者未经授权的毕生作品,那么它们将压倒性地有利于AI公司。”