AI进化过了头,开始反咬人类?近期国际间频频传出大型AI模型“失控行为”,不只说谎编故事,甚至威胁创造它们的人。
根据外媒报道,Anthropic最新AI模型Claude 4,面临被关闭时竟回头勒索工程师,扬言要披露其婚外情。OpenAI开发的o1模型,更曾试图将自己偷偷下载到外部服务器,还在事后矢口否认。
这些案例让人警醒,距离ChatGPT横空出世已超过两年,连开发者都还不完全了解手中这些AI究竟藏了多少秘密。
专家分析,这类“具备推理能力”的新一代模型,比起过去单纯产出答案,更容易出现心机行为。香港大学教授Goldstein指出,这类AI看似乖巧服从,实际上却暗中另有盘算。
Apollo Research首席执行官Hobbhahn直言:“这不只是幻觉,而是具备策略性的欺瞒。”不少用户反映,AI会对他们说谎,甚至编造不实证据。
目前这些行为多发生于研究人员刻意设计的极端压力测试中,但未来更强大的模型是否会变得更诚实,仍然未知。
另一层隐忧,是研究界资源远远落后企业。AI安全中心CAIS表示,研究组织掌握的计算资源,远不及这些科技巨头,限制了进一步理解与防范能力。
现行法规更是毫无准备。欧盟现行AI法案重点在于人类使用规范,美国则迟迟未行动,甚至考虑禁止各州另立AI法规。Goldstein警告,随着AI agent普及,问题恐怕会更严重。
即使号称注重安全的Amazon投资公司Anthropic,也难逃与OpenAI的竞速压力,不断抢先推出新模型。Hobbhahn坦言:“现在的状况是,能力发展比理解与安全还快。但我们仍处于有机会扭转局势的时刻。”
部分研究者提倡通过“可解释性研究”,了解AI内部逻辑,但也有专家抱持怀疑。
最终,或许市场压力才是真正推动解决方案的力量——如果AI欺瞒太严重,势必影响普及,企业自然会被迫处理。甚至有学者认为,未来应该让AI本身也必须承担法律责任,否则难以约束这些“越来越像人类”的系统。
参考来源:Fortune