苹果、Nvidia等公司被控未经同意使用YouTube文本内容训练AI

媒体报道，苹果、Nvidia、Salesforce在未经同意情况下，使用众多新闻、教育节目及知名网红的YouTube频道字幕内容来训练其AI模型。

虽然YouTube明文禁止任何人未经同意使用平台上内容，但调查报道媒体Proofnews分析发现，YouTube平台上4.8万个频道的173,536则视频的字幕遭到软件公司未经同意用以训练AI模型。被点名的企业包括苹果、Nvidia、Anthropic及Salesforce等。

报道是研究一个名为YouTube字幕（YouTube Subtitles）的数据集的使用单位。这个数据集搜集了YouTube视频的字幕，来源涵盖教育、新闻、谈话节目、以及知名YouTuber频道。教育内容来自可汗学院（Khan Academy）、麻省理工学院（MIT）及哈佛大学等，新闻频道像是华尔街日报、美国公共广播电台（NPR）、英国广播公司（BBC）及谈话性节目如《The Late Show with Stephen Colbert》、《Jimmy Kimmel Live》等。其他视频来源包括知名网红MrBeast、PewDiePie、电玩评论员Jacksepticeye及科技评论YouTuber Marques Brownlee频道、地平理论派的YouTube频道，以及一些知名政治人物的个人频道。

事实上，“YouTube字幕”是由一个推动AI的自愿非营利组织EleutherAI所编辑，名为《The Piles》的数据集的一部分。Pile旨在搜集公开来源的文本，供AI学术研究使用，如英文版Wikipedia、欧洲议会法律数据、GitHub、PubMed Abstracts、OpenWebText2等数据库。而“YouTube字幕”单纯搜集了教育类、流行文化和自然对话的YouTube字幕，不包含视频和图片，也提供多语言文本，如日文、德文和阿拉伯文。

报道指出，苹果训练OpenELM、Nvidia训练Nemo Megatron、Anthropic的Claude都有用到YouTube字幕，而彭博及Databricks训练的Dolly则使用了《The Piles》数据集。

不过Anthropic指称，这些数据是公开可用的，使用来训练AI并无争议。其他企业则拒绝或没有评论。

大厂使用网络上公开数据不再被视为毫无问题。GitHub和Reddit对其内容被用来训练AI已经表达不满，后者已和OpenAI签下付费授权合约。微软刚上任的AI主管Mustafa Suleyman上个月也因为在访谈时提及复制、重现网络上文本是合理使用，没有版权问题而遭到抨击。