研究人员发现AI模型资源平台Hugging Face上存在API漏洞,泄露包含微软、Meta及Google等公司的API验证资讯,严重者可能让攻击者污染训练数据集或窃取、改造成恶意的AI模型。

随着大型语言模型(LLM)快速普及,GitHub和Hugging Face也成为许多LLM项目开发人员爱用的资源平台。其中,Hugging Face一项重要功能是开源函数库Transformers。这个函数库里托管了50万个AI模型及25万项数据集,包括Meta的Llama、Bloom、Pythia及其他预训练模型。Hugging Face提供API,供外部开发人员及企业将Python函数库集成到其模型,或读取、添加、修改或删除存储库或文件。GitHub的API也是类似功能。若取得GitHub和Hugging Face API验证令牌,可能导致企业数据外泄、恶意模型传播等不良后果。

安全厂商Lasso Security近日在一项研究中,发现不论GitHub或Hugging Face都可能让不法人士从其存储库(repository)取得平台上各模型供应商的API验证令牌(token),得以访问模型或其他程序代码。研究小组一共从两平台上找到1,681个有效的令牌。经过一步分析数据,他们取得了723家企业组织的账号,包括Meta、微软、Google、VMware及Hugging Face等。其中655个令牌具有写入权限,其中77个还能写入多个组织系统,令研究人员得以全权控制多个知名公司的程序代码存储库,如Hugging Face上的Pythia的EleutherAI、Bloom的BigScience Workshop、Meta Llama 2等,都是下载次数超过百万的热门模型。

研究人员警告,只要控制这些程序代码存储库,就能发动多种攻击。像是最基础的窃取模型和数据集,或是污染数据集:研究人员从API取得14个每月下载次数数十万的数据集,得以扭曲机器学习模型的完整性。最严重的是供应链攻击:改造现有模型使其成为恶意模型,危害大量依赖这些基础模型的应用程序。

他们还意外发现到一个Hugging Face之前宣布已停用的org_api tokens,只要稍稍变更程序代码,虽然无法写入Python函数库,但仍可读取,让研究人员成功下载多个不公开的模型,包括微软拥有的模型。

图片来源_Lasso Security

研究人员最后通报Hugging Face以及研究中其他受影响的组织,像是微软、Meta、Google及VMware及GitHub等,并且解决org_api令牌还能读取的问题。这些知名企业已经撤销其令牌,也移除了API上暴露出的token。

但研究人员表示,Hugging Face并未立即采取积极作为保护其用户令牌。他们同时呼吁所有开发人员避免将令牌资讯写死在API,以免泄露资讯而为攻击者开方便之门。