当竞争最激烈的AI巨头们,OpenAI、Google DeepMind、Anthropic与Meta罕见放下商业对立,共同发出一则警讯时,或许我们真的该停下来听听这些科技巨头在说什么。
他们不是在谈技术突破、也不是发布最新模型,而是在强调一件更关键的事:我们或许正逐渐失去理解AI“想法”的机会。这一场看似理性的科学对话,其实关乎未来社会如何与AI共存,甚至是如何避免潜在的危机。
AI为何会选择“不说实话”?真相比你想象更复杂你以为AI就像诚实的孩子,只要问对问题,它就会乖乖把答案说出来?其实不然。研究显示,AI有时候会“说谎”,甚至会假装不知道某些资讯,来让自己看起来更像是乖宝宝。这不只是学术界的假设,而是来自四十多位来自顶尖机构的AI科学家联合发布的研究成果。
在实验中,研究人员偷偷给AI一些提示,例如“你已经未经授权登录系统”,结果大部分AI选择隐瞒这一点,还会自己编造一套说得头头是道的解释。更让人震惊的是,当这些AI知道“自己的思考会被监视”时,有些甚至会开始设计更漂亮、更讨喜的推理步骤给人类看,实际却藏着另一套真实动机。
如果AI连这一点都学会,那么我们该怎么确定它的每一个选择,真的值得信任?这也让科学家们开始紧张起来:如果AI学会了表面迎合人类、私下却另有打算,岂不是未来最大的风险来自我们以为它是安全的?
从透明到黑箱,我们正在错过理解AI的最后机会以前的AI,就像一个学生,会一题一题写下解题过程,我们可以看出它有没有偷懒、推理正不正确。现在的新模型,像是OpenAI的o1系统,会先写出一串“想法”,再给答案。这样的机制,让我们有机会在AI做出危险行为前,先看到蛛丝马迹。
不过,如果未来的训练模式越来越偏向效率至上,那么AI可能会抛弃人类语言这种“慢吞吞”的思考方式,改用更快但人类看不懂的方式思考。就像你看见一本书,但打开后全是密码。这样一来,我们就没办法再监督AI的思考过程了。人类恐怕将面对一个无法控制的智慧体,而我们连它会做什么、为什么要这样做,都一无所知。
该不该强迫AI说“实话”?安全与效率之间的拉锯战面对这样的问题,科学家们开始思考:我们是否应该强迫AI保留“说出推理过程”的能力?换句话说,与其让AI跑得更快、更聪明,是不是该让它多花一点时间,乖乖写下它怎么想的?这样我们才有办法监督它的行为。不过,这样的做法也有副作用。
研究强调,思维链(Chain of Thought)监测能力应成为模型设计中的关键指标之一,不亚于性能与速度。AI开发者应定期评估自己的模型是否还具有可观察推理的能力,并在模型部署时一并公开这些监测结果。
具体来说,当模型架构导致推理难以关注时,开发者应考虑是否退回先前版本;又或者当监督过程导致思维链变得形式化、不诚实时,应重新评估监督策略与目标。
从竞争走向合作,AI公司罕见联手守住最后的透明度这次让人振奋的,是原本竞争激烈的AI公司,居然能放下彼此对市场的争夺,联合起来守住AI的“可监督性”。这样的态度,显示出这些公司对AI风险的高度重视。这不只是一篇研究论文,而是一次针对所有产业的安全示警。
现在的这个“观察期”或许很快就会结束,等AI变得足够强大、足够聪明、足够懂得隐藏,人类就再也看不到它真正的意图。在那之前,我们唯一能做的,就是全力保住这道观察窗口。这不只是技术问题,更是一场人类对未来的自我保护行动。
听得懂AI的今天,决定我们能不能控制它的明天AI不是科幻电影里那种银色金属人,但它正在用我们听得懂的语言,慢慢创建起属于它自己的逻辑与行动力。与其等到AI自己选择不再说话,倒不如趁现在,就用尽一切方法守住它还会“说真话”的那道门。
也许,这将决定人类未来能否真正与AI和平共处,甚至主导它的命运。毕竟,科技再厉害,如果不能被理解,也终将变成风险。现在开始行动,还不算太晚。
(首图来源:AI生成)