去年才创立、专门解析AI模型内部运行原理的Goodfire周四(4/17)宣布,正在展开由Menlo Ventures领投的5000万美元A轮融资,以用来拓展其研究计划,以及与客户共同开发可解释性平台Ember。

Goodfire成立于2024年,在去年8月完成700万美元的种子轮融资,股东之一是由Menlo Ventures及AI创业公司Anthropic在同年7月共同创立的1亿美元基金Anthology Fund,也是Anthology Fund首批投资的公司之一。Anthropic也参与了Goodfire的A轮融资,其他参与者还包括Lightspeed Venture Partners、B Capital、Work-Bench、Wing及South Park Commons。

Goodfire的共同创办人包括现任首席执行官Eric Ho,曾共同创办DeepMind可解释性团队的Tom McGrath,曾共同创办Apollo Research并率先使用稀疏编码器的Lee Sharkey,以及曾共同创立OpenAI可解释性团队的Nick Cammarata。

Goodfire所从事的是新兴的逆向工程神经网络科学,专注于核心机制的可解释性研究,目的是实现模型神经网络的脑部手术。由Goodfire所开发的Ember平台主要用来解码AI模型内部的神经元,以便直接或可通过程序设计来访问模型的内部想法,企图解锁采用、训练及调整AI模型的新方法,让用户得以发现隐藏于模型内的新知识,精确塑造模型的行为并提高模型性能。

这是因为AI模型的通常含有数层的神经元,它们经过反复的训练与调整,处理大量的数据,而且许多深度学习模型会自动从原始数据中学习特征,即便是在训练过程中知道每个权重与偏差的变化,但却难以关注模型的决策过程,因而又被称为黑箱。随着AI模型变得越来越大,它们也越来越不透明,开始有AI专家担心这些模型在人类不明白其运行原理时所作出的关键决策。

Ho说,没有人了解AI模型失效的机制,因此也没有人知道该如何修复它们,Goodfire的愿景是构建各种工具,以让组织得以从内而外地理解、设计与修复神经网络,而该技术对于打造安全而强大的基础模型至关重要。

未来Goodfire计划发布更多的研究预览版,以支持涵盖图像处理、先进推理语言模型,以及科学建模等领域的可解释性技术。