AI训练数据告急！网络内容限制引发同意危机

多年来，开发AI系统的人们一直使用从网际网络中提取的大量文本、图像和视频来训练他们的模型。

现在，这些数据正在枯竭。

根据麻省理工学院（MIT）领导的研究小组数据源计划（Data Provenance Initiative）本周发布的一项研究，过去一年，许多用于训练AI模型的最重要的网络来源已经限制了其数据的使用。

这项研究调查了包含在三个常用人工智能训练数据集中的14,000个网络域名，发现出现了一场“同意危机”，因为出版商和线上平台已采取措施防止他们的数据被采集。

研究人员估计，在三个名为C4、RefinedWeb和Dolma的数据集中，5%的数据以及25%的高品质数据受到限制。这些限制是通过机器人排除协议（Robots Exclusion Protocol）设置的，这是一种使用名为robots.txt的文件来防止自动机器人爬取网页的数十年历史方法。

该研究还发现，多达45%的C4数据集已被网站的服务条款限制。

该研究的主要作者夏恩·朗普雷（Shayne Longpre）在接受采访时表示：“我们看到整个网络对使用数据的同意度正在迅速下降，这不仅会对AI公司产生影响，还会对研究人员、学者和非商业实体产生影响。”

数据是当今生成式AI系统的主要组成部分，这些系统被输入了数十亿个文本、图像和视频范例。这些数据大多是由研究人员从公共网站上抓取并编译成大型数据集，可以下载并免费使用，也可以用其他来源的数据补充。

从这些数据中学习，使得像OpenAI的ChatGPT、Google的Gemini和Anthropic的Claude这样的生成式人工智能工具能够编写程序代码、生成图像和视频的原因。输入这些模型的高品质数据越多，它们的输出通常就越好。

多年来，AI开发人员能够相当轻松地收集数据。但过去几年的生成式AI热潮导致与这些数据所有者的关系紧张 - 其中许多人对被用作AI训练素材感到担忧，或者至少希望因此获得报酬。

随着反弹愈演愈烈，一些出版商设置了付费墙或更改了服务条款，以限制其数据用于AI训练。其他人则封锁了OpenAI、Anthropic和Google等公司使用的自动网络爬虫。

Reddit和StackOverflow等网站已开始向AI公司收取访问数据的费用，一些出版商也采取了法律行动，包括《纽约时报》去年起诉OpenAI和微软侵犯版权，声称这些公司未经许可使用新闻文章来训练他们的模型。

OpenAI、Google和Meta等公司近年来竭尽全力收集更多数据来改进他们的系统，包括转录YouTube视频和改变自己的数据政策。

最近，一些AI公司与包括美联社和《华尔街日报》所有者新闻集团（News Corp）在内的出版商完成了协议，让他们可以持续使用他们的内容。

但是，广泛的数据限制可能会对AI公司构成威胁，这些公司需要稳定的高品质数据供应来保持其模型的新鲜度和最新状态。

它们也可能给依赖公共数据集且无力直接从出版商那里获得数据许可的小型AI公司和学术研究人员带来麻烦。朗普雷说，Common Crawl就是这样一个数据集，它包含数十亿页的网络内容，由一个非营利组织维护，并已被超过10,000项学术研究引用。

目前尚不清楚哪些流行的AI产品已经接受过这些来源的训练，因为很少有开发人员透露他们使用的完整数据清单。但源自Common Crawl的数据集，包括C4（代表Colossal、Cleaned Crawled Corpus），已被Google和OpenAI等公司用于训练其模型的先前版本。Google和OpenAI的发言人拒绝回应。

Hugging Face（一家为AI开发人员提供工具和数据的公司）的机器学习研究员Yacine Jernite将同意危机描述为对AI行业积极的数据收集做法的自然反应。

他说：“不出所料，在他们网络上分享的文本、图像和视频被用来开发有时直接威胁他们生计的商业系统之后，我们看到数据创作者的强烈反弹。”

但他警告说，如果所有AI训练数据都需要通过许可协议获得，那么“研究人员和民间社会将被排除在参与该技术的治理之外”。

非营利AI研究组织EleutherAI的执行董事史黛拉·毕德曼（Stella Biderman）也回应了这些担忧。

她说：“大型科技公司已经拥有所有数据。更改数据许可并不会追溯撤销该许可，其主要影响是对后来者，他们通常是较小的创业公司或研究人员。”

AI公司声称，他们对公共网络数据的使用受到合理使用的法律保护。但收集新数据变得更加棘手。我交谈过的一些AI高管担心会遇到“数据墙” - 这是他们的术语，指的是公共网际网络上的所有训练数据都已用尽，其余的则隐藏在付费墙后面，被robots.txt或锁定在独家交易中。

一些公司相信，他们可以通过使用合成数据（即由AI系统生成的数据）来训练他们的模型，进而扩展数据墙。但许多研究人员怀疑，今天的AI系统是否能够生成足够多的高品质合成数据来取代他们正在失去的人工创建数据。

另一个挑战是，虽然出版商可以尝试通过在其robots.txt文件中设置限制来阻止AI公司抓取其数据，但这些请求不具有法律约束力，并且遵守是自愿的。（把它想象成一个“禁止入内”的标志，但没有法律效力。）

主要的搜索引擎都遵守这些拒绝请求，包括OpenAI和Anthropic在内的几家领先的AI公司也公开表示他们也会这样做。但其他公司，包括AI驱动的搜索引擎Perplexity，被指控无视它们。Perplexity首席执行官亚拉文·史里尼瓦斯（Aravind Srinivas）说，该公司尊重出版商的数据限制。他补充说，虽然该公司曾经与并非总是遵守机器人排除协议的第三方网络爬虫合作，但它已“与我们的提供商进行了调整，以确保他们代表Perplexity进行爬取时遵守robots.txt”。

朗普雷说，该研究的一大收获是，我们需要新的工具来为网站所有者提供更精确的方法来控制其数据的使用。一些网站可能反对AI巨头利用其数据来训练聊天机器人以获利，但可能愿意让非营利组织或教育机构使用相同的数据，他说。目前，他们没有很好的方法来区分这些用途，或者在允许一种用途的同时阻止另一种用途。

但这也给大型AI公司上了一课，这些公司多年来一直将网际网络视为不限量的数据自助餐，而没有给予这些数据的所有者太多回应。最终，如果你利用网络，网络就会开始关闭它的大门。