Alphabet旗下的AI技术研究公司DeepMind上周五(5/17)发布了AI安全框架Frontier Safety Framework,同时阐述该公司分析与减轻先进AI模型招致未来风险的方法。

DeepMind说明,该公司一直在突破AI的疆界,所开发的模型已改变了他们对于其可能性的理解,相信未来的AI技术将对社会带来宝贵的工具,但他们同时也意识到,在继续推动AI能力之际,相关的突破最终可能会招致超越现有模型的新风险。

因此,DeepMind团队创建了一套安全协议Frontier Safety Framework ,可用来主动识别未来可能造成严重伤害的AI能力,也可创建检测及缓解相关伤害的机制。该框架着重于模型层面的强大能力所能导致的重大风险,像是特殊代理或复杂网络能力,将补充现有的对齐(Alignment)研究,以及Google既有的AI责任及安全实践组件。

现在DeepMind所公布的则是Frontier Safety Framework的第一个版本,它有3个关键组件,其一是识别模型是否具备造成重大伤害的能力,其中有个重要概念为关键能力水准(Critical Capability Levels,CCL),指的是模型可于高风险领域造成严重伤害的最低能力水准。

其次为定期评估各种前沿模型以侦测它们达到CCL的时间点。DeepMind将开发一套“早期预警评估”的模型评估组件,并定期执行以于模型达到CCL之前发出通知。最后则是在模型能力超越早期预警评估时,实施缓解计划,其缓解措施将着重于安全性及部署上,包括预防模型外泄及避免关键功能遭到滥用。

目前DeepMind仍在探索Frontier Safety Framework,有望从逐步的部署,强化与产业、学术及政府的合作来改善框架,并预计于明年初全面实施该框架。