人工智能技术持续进步,现有的数据共享与内容再利用规范面临挑战,非营利组织创用CC(Creative Commons)宣布启动全新CC Signals计划,目的是要在人工智能时代创建一套兼具法律与技术基础的数据共享标准。这项计划希望能延续过去CC授权对开放网络的影响力,进一步协调数据提供者与人工智能模型开发者之间的权益关系,并引导开发社交媒体创建互惠、可持续的数据生态。

网络上的开放数据与内容成为各家大型语言模型及人工智能系统训练的基础,但是现行授权条款多针对人与人之间的内容共享设计,对数据贡献者而言,面对人工智能大规模自动化数据截取,原有规范难以有效保障其权益或清楚界定内容再利用的范围。

部分内容提供者担忧自身贡献沦为被动被截取的资源,进而设限或付费墙,另一方面,开发者与人工智能公司则担忧数据源被切断、开放知识日益封闭。而CC Signals的提出,便是在此脉络下所产生的业界与内容社交媒体间的新社会契约。

CC Signals是一套偏好信号框架,让数据拥有者能以结构化、机器可读的方式,标示其内容如何可被人工智能系统使用。与传统CC授权不同,CC Signals针对人工智能数据再利用设置一组有限且有意义的选项,反映公众利益。这套机制结合技术与法律工具,同时也是一项社会倡议,创建数据分享者与用户之间的新协议,并在不同法律、技术与规范场景下保持弹性。

创用CC组织首席执行官Anna Tumadóttir指出,CC Signals继承了CC授权推动开放网络的经验,并认为这套共享模式能在人工智能生态系中,创建起数据贡献者与用户之间的互惠机制。

CC Signals采用机器可读标记语言,借由融入主流网站与数据平台架构,让数据的人工智能可用性更透明。由于现有人工智能系统数据抓取自动化程度高,信号标示与自动识别将有助于降低未经授权使用风险,也方便语言模型开发者厘清数据源的合法性。

官方强调CC Signals是一项由社交媒体共同协作与讨论的开放项目。CC Signals目前已公开技术草案,邀请全球社交媒体在GitHub参与讨论并提出反馈意见,规划将于2025年11月发布Alpha版本,并于7、8月举办多场线上说明会,进一步听取各界对设计、技术实例与法律适用的意见。