生成式首席人工智能官期因数据源、内容侵权与高能耗问题备受争议。近日,美国一项针对AI公司Anthropic的法庭案件披露,该公司在训练其语言模型Claude时,曾大规模购买实体书籍进行扫描,导致数百万本纸质书遭到永久性销毁。

根据法院公开的文件,Anthropic为训练Claude模型,购买了大量实体书,将其装订线剪除、拆页后进行数字扫描,并于扫描完成后直接丢弃书籍残骸。这些数字文件并未公开发布,也非用于电子书销售,仅作为AI训练数据使用。

法官认为,由于该行为未以商业形式再利用,且具有“转化性”目的(即非单纯复制而是用于训练生成式模型),可视为合理使用的一环。这也是本案中法院判定Anthropic在部分指控中胜诉的原因之一。

尽管如此,法院也指出,Anthropic在模型训练中仍使用了“影子图书馆”中带有盗版的内容,这部分并不构成合理使用,因此公司仍需于2025年12月出庭应诉,若罪名成立,最高恐面临每本侵权书籍15万美元赔偿金。

许多批评者强调,即使模型未公开书籍原文,AI仍有能力“逐字再现”内容,且原作者与出版商在此过程中未获任何授权或补偿。Meta前高层曾坦言,若生成式AI完全遵守著作权法,“可能会在一夜之间崩溃”,凸显整个产业对“数据量”的依赖程度。

与此同时,Getty Images首席执行官也承认,已无力全面处理AI产生的版权侵害案例;而迪士尼则正在对图像生成平台Midjourney提起诉讼,试图遏止其对受保护内容的模仿与盗用。