Wikimedia多媒体内容带宽用量大幅增长，主要来自AI机器人的数据爬虫

维基媒体基金会（Wikimedia Foundation）周二（4/1）表示，自2024年以来，外界对于由志工创建的维基媒体社交媒体的内容需求大幅攀升，特别是维基共享资源（Wikimedia Commons）上所存放的1.44亿个图像、视频或其他文件，下载相关多媒体内容的带宽增长了50%，其增长主要来自于AI模型的爬虫机器人，因此该基金会制定了年度计划，预计减少20%的爬虫请求，以及降低30%的爬虫数据传输流量，以节省资源及带宽，供真正需要服务的开发者使用。

该基金会指出，维基媒体的各个项目一直是全球最大的开放知识集合，不管是人类搜索或是商用产品的访问都依赖它们，其中，内容一直是搜索引擎结果的关键组成部分，同时也会将用户引跳转至维基媒体的网页，然而，AI的兴起使其动态产生了变化，他们观察到请求数量明显增加，所增加的流量中大多数是来自于替大型语言模型（LLM）或其他案例搜集数据的爬虫机器人，而这些流量大部分并没有注明所取得的数据源，同时还对维基媒体的底层基础设施造成了大量的负担。

根据维基媒体基金会的统计，自2024年1月以来，用于下载多媒体内容的带宽增加了50%，该增长并非来自人类，主要来自自动化程序，这些爬虫程序抓取Wikimedia Commons形象目录中的公开许可图像，以将图像提供给AI模型。该平台的基础设施可承受高关注事件发生时，人类于短时间相继访问所形成的流量高峰，然而，若花费大量的时间与资源来回应非人为的流量时，该平台容纳异常事件的空间就会缩小，也衍生出越来越大的风险与成本。

维基媒体基金会是借由全球的数据中心网络替用户提供内容，当一篇文章被多次请求时，他们会在离用户最近的数据中心记住或缓存它们，倘若某篇文章很久未被请求，那么则会自核心数据中心供应，意味着该请求必须行经从靠近用户的数据中心到核心数据中心的所有路径，再将其存储在区域数据中心。

人类读者与机器人的差别在于，人类通常会访问特定或相似的主题，但爬虫机器人通常是批量阅读大量的页面，包括那些很少被访问的冷门页面，意味着许多请求会被转至核心数据中心，消耗更多的资源。

在维基媒体进行系统迁移时，发现机器人浏览的网页数量仅占全体的35%，但访问其核心数据中心的流量却高达65%。

维基媒体基金会强调，他们的内容是免费的，但基础设施不是，新的财政年度将着重于负责任地使用基础设施，将工程资源优先用来该基金会的各种项目、贡献者，以及人类对知识的访问，准备减少20%由机器人产生的流量，降低30%的爬虫机器人使用带宽，估计到今年第4季时，将有50%的自动化流量可归因于已知的开发人员或应用程序，提高基础设施的可持续性并防止滥用。

Wikimedia多媒体内容带宽用量大幅增长，主要来自AI机器人的数据爬虫

微信扫一扫：分享