“Vibe coding”(氛围编码)兴起后,AI公司急着创建大技术知识库,以训练下代AI助理。但这些公司如何取得珍贵数据库,常引发法律问题。最近Reddit和Stack Overflow举动或许可知道未来发展。

“Vibe coding”是指用户告诉AI程序助理需求,然后让AI自动写程序,因关键字搜索量暴增6,700%,许多知名专家如Databricks的CEO Ali Ghodsi,都开始依赖这种方法。但写AI程序助理如何取得访问论坛讨论内容的权限,学习数以千计技巧和边缘案例,成了重要问题。某些情况,AI公司甚至未经许可就直接抓取这些数据。

Reddit最近控告Anthropic,指其未经授权,从平台抓取用户内容以训练AI模型,违反Reddit政策。Reddit说Anthropic自2024年7月访问平台超过十万次,并明知禁止机器人爬虫,仍不断偷取数据。

Stack Overflow也积极保护数据,最近与Snowflake签署协议,允许用户经Snowflake Marketplace访问人类策划过高品质问答数据。Stack Overflow CEO Prashanth Chandrasekar表示,这些动作都使Snowflake用户更轻松取得数据,且都经过授权。

两平台显示无论Reddit的自由或Stack Overflow的严谨,都不会容忍未经授权的数据访问。大型科技公司15年来不断收集网络数据,这些平台也努力确保任何商业化行为都须遵循各平台条款和规定,并将更多控制权交还给用户。Stack Overflow还有防止数据拿去训练AI的措施,确保数据库不被AI侵入,用Cloudflare验证用户身份,并对AI答案采严格禁止政策。这些措施都为了保护人类生产内容,确保品质。

AI模型开发者和用户对高品质数据需求日益增加,各事件突显数据所有权、授权和隐私问题的重要性。AI公司追求更多数据时,也必须遵循法律规范,确保修户隐私得到保护。

(首图来源:Pixabay)