网络数据保护意识抬头！Reddit与Stack Overflow对AI数据爬虫说不

“Vibe coding”（氛围编码）兴起后，AI公司急着创建大技术知识库，以训练下代AI助理。但这些公司如何取得珍贵数据库，常引发法律问题。最近Reddit和Stack Overflow举动或许可知道未来发展。

“Vibe coding”是指用户告诉AI程序助理需求，然后让AI自动写程序，因关键字搜索量暴增6,700%，许多知名专家如Databricks的CEO Ali Ghodsi，都开始依赖这种方法。但写AI程序助理如何取得访问论坛讨论内容的权限，学习数以千计技巧和边缘案例，成了重要问题。某些情况，AI公司甚至未经许可就直接抓取这些数据。

Reddit最近控告Anthropic，指其未经授权，从平台抓取用户内容以训练AI模型，违反Reddit政策。Reddit说Anthropic自2024年7月访问平台超过十万次，并明知禁止机器人爬虫，仍不断偷取数据。

Stack Overflow也积极保护数据，最近与Snowflake签署协议，允许用户经Snowflake Marketplace访问人类策划过高品质问答数据。Stack Overflow CEO Prashanth Chandrasekar表示，这些动作都使Snowflake用户更轻松取得数据，且都经过授权。

两平台显示无论Reddit的自由或Stack Overflow的严谨，都不会容忍未经授权的数据访问。大型科技公司15年来不断收集网络数据，这些平台也努力确保任何商业化行为都须遵循各平台条款和规定，并将更多控制权交还给用户。Stack Overflow还有防止数据拿去训练AI的措施，确保数据库不被AI侵入，用Cloudflare验证用户身份，并对AI答案采严格禁止政策。这些措施都为了保护人类生产内容，确保品质。

AI模型开发者和用户对高品质数据需求日益增加，各事件突显数据所有权、授权和隐私问题的重要性。AI公司追求更多数据时，也必须遵循法律规范，确保修户隐私得到保护。

（首图来源：Pixabay）