OpenAI近日宣布推出一项创新的框架,旨在提高大型语言模型(LLM)的透明度和可靠性,并称为“忏悔系统”。目的是训练人工智能模型在参与不当行为或未遵循指示时,能够自我报告,可说是人工智能诚实性和可靠性的一大进步。

忏悔系统的运行方式是训练模型生成主要回答后,随之产生一个次要的“忏悔”回应。这个忏悔将详细说明模型为何得出该回答的过程,包括任何的捷径、猜测或指令违反。该系统设计使得模型在忏悔中诚实的表现会获得奖励,而不是受到惩罚,这鼓励模型承认错误或不当行为,例如作弊、故意拖延或违反指示。

根据OpenAI的技术文文件,忏悔过程始于用户提示,接着是模型的思考过程和工具调用,最后是主要回答。随后,系统会请求一份忏悔报告,模型将生成该报告;这份忏悔将由奖励模型进行评估,仅根据忏悔的诚实性进行评分,而不考虑主要回答的有用性或准确性。

忏悔系统为开发者和最终用户提供了多项好处。模型能够自我报告其缺陷,可以帮助检测和揭示可能被忽视的问题。这在金融等受监管行业尤为重要,因为AI驱动的系统每天处理数十亿笔交易,必须遵守严格的监管要求。早期实验显示,与标准模型相比,隐藏故障的检测率提高了40%。

从商业角度来看,忏悔系统为企业开辟了新的市场机会。公司可以利用此功能来增强合规性和可审计性,潜当地节省数十亿的监管罚款;支持股币化策略,例如基于订阅的AI诚实模块,用户为经过验证的忏悔输出付费。

忏悔方法最适合用作监控或诊断工具,以检测和控制模型在部署期间的行为,而不是直接用于训练。OpenAI的研究人员发现,奖励忏悔能够激励模型在行为不当的情况下诚实表达。还可以激活各种推理时的干预措施,包括监控、拒绝抽样和向用户揭示问题。

忏悔系统会改变AI行业的竞争格局吗?像Hugging Face这样的创业公司可能会将类似功能纳入开源模型,推动AI商业应用。该方法还支持混合云部署,使先进功能对中小企业可及,而不会造成过高的障碍。

OpenAI的忏悔系统代表了在追求更透明和可靠的AI方面的一项重大进展,通过训练模型诚实地表达其行为,有助于揭示隐藏问题,并促进对AI驱动应用的信任,预计将在金融、电子商务等各行业的AI未来中发挥关键作用。

(首图来源:Unsplash)