阅完即焚？法院文件显示为训练Claude AI模型，Anthropic销毁数百万本实体书籍

生成式首席人工智能官期因数据源、内容侵权与高能耗问题备受争议。近日，美国一项针对AI公司Anthropic的法庭案件披露，该公司在训练其语言模型Claude时，曾大规模购买实体书籍进行扫描，导致数百万本纸质书遭到永久性销毁。

根据法院公开的文件，Anthropic为训练Claude模型，购买了大量实体书，将其装订线剪除、拆页后进行数字扫描，并于扫描完成后直接丢弃书籍残骸。这些数字文件并未公开发布，也非用于电子书销售，仅作为AI训练数据使用。

法官认为，由于该行为未以商业形式再利用，且具有“转化性”目的（即非单纯复制而是用于训练生成式模型），可视为合理使用的一环。这也是本案中法院判定Anthropic在部分指控中胜诉的原因之一。

尽管如此，法院也指出，Anthropic在模型训练中仍使用了“影子图书馆”中带有盗版的内容，这部分并不构成合理使用，因此公司仍需于2025年12月出庭应诉，若罪名成立，最高恐面临每本侵权书籍15万美元赔偿金。

许多批评者强调，即使模型未公开书籍原文，AI仍有能力“逐字再现”内容，且原作者与出版商在此过程中未获任何授权或补偿。Meta前高层曾坦言，若生成式AI完全遵守著作权法，“可能会在一夜之间崩溃”，凸显整个产业对“数据量”的依赖程度。

与此同时，Getty Images首席执行官也承认，已无力全面处理AI产生的版权侵害案例；而迪士尼则正在对图像生成平台Midjourney提起诉讼，试图遏止其对受保护内容的模仿与盗用。