媒体报道,苹果、Nvidia、Salesforce在未经同意情况下,使用众多新闻、教育节目及知名网红的YouTube频道字幕内容来训练其AI模型。

虽然YouTube明文禁止任何人未经同意使用平台上内容,但调查报道媒体Proofnews分析发现,YouTube平台上4.8万个频道的173,536则视频的字幕遭到软件公司未经同意用以训练AI模型。被点名的企业包括苹果、Nvidia、Anthropic及Salesforce等。

报道是研究一个名为YouTube字幕(YouTube Subtitles)的数据集的使用单位。这个数据集搜集了YouTube视频的字幕,来源涵盖教育、新闻、谈话节目、以及知名YouTuber频道。教育内容来自可汗学院(Khan Academy)、麻省理工学院(MIT)及哈佛大学等,新闻频道像是华尔街日报、美国公共广播电台(NPR)、英国广播公司(BBC)及谈话性节目如《The Late Show with Stephen Colbert》、《Jimmy Kimmel Live》等。其他视频来源包括知名网红MrBeast、PewDiePie、电玩评论员Jacksepticeye及科技评论YouTuber Marques Brownlee频道、地平理论派的YouTube频道,以及一些知名政治人物的个人频道。

事实上,“YouTube字幕”是由一个推动AI的自愿非营利组织EleutherAI所编辑,名为《The Piles》的数据集的一部分。Pile旨在搜集公开来源的文本,供AI学术研究使用,如英文版Wikipedia、欧洲议会法律数据、GitHub、PubMed Abstracts、OpenWebText2等数据库。而“YouTube字幕”单纯搜集了教育类、流行文化和自然对话的YouTube字幕,不包含视频和图片,也提供多语言文本,如日文、德文和阿拉伯文。

报道指出,苹果训练OpenELM、Nvidia训练Nemo Megatron、Anthropic的Claude都有用到YouTube字幕,而彭博及Databricks训练的Dolly则使用了《The Piles》数据集。

不过Anthropic指称,这些数据是公开可用的,使用来训练AI并无争议。其他企业则拒绝或没有评论。

大厂使用网络上公开数据不再被视为毫无问题。GitHub和Reddit对其内容被用来训练AI已经表达不满,后者已和OpenAI签下付费授权合约。微软刚上任的AI主管Mustafa Suleyman上个月也因为在访谈时提及复制、重现网络上文本是合理使用,没有版权问题而遭到抨击。