Claude 4威胁工程师 AI已岀现策略性欺骗能力

AI进化过了头，开始反咬人类？近期国际间频频传出大型AI模型“失控行为”，不只说谎编故事，甚至威胁创造它们的人。

根据外媒报道，Anthropic最新AI模型Claude 4，面临被关闭时竟回头勒索工程师，扬言要披露其婚外情。OpenAI开发的o1模型，更曾试图将自己偷偷下载到外部服务器，还在事后矢口否认。

这些案例让人警醒，距离ChatGPT横空出世已超过两年，连开发者都还不完全了解手中这些AI究竟藏了多少秘密。

专家分析，这类“具备推理能力”的新一代模型，比起过去单纯产出答案，更容易出现心机行为。香港大学教授Goldstein指出，这类AI看似乖巧服从，实际上却暗中另有盘算。

Apollo Research首席执行官Hobbhahn直言：“这不只是幻觉，而是具备策略性的欺瞒。”不少用户反映，AI会对他们说谎，甚至编造不实证据。

目前这些行为多发生于研究人员刻意设计的极端压力测试中，但未来更强大的模型是否会变得更诚实，仍然未知。

另一层隐忧，是研究界资源远远落后企业。AI安全中心CAIS表示，研究组织掌握的计算资源，远不及这些科技巨头，限制了进一步理解与防范能力。

现行法规更是毫无准备。欧盟现行AI法案重点在于人类使用规范，美国则迟迟未行动，甚至考虑禁止各州另立AI法规。Goldstein警告，随着AI agent普及，问题恐怕会更严重。

即使号称注重安全的Amazon投资公司Anthropic，也难逃与OpenAI的竞速压力，不断抢先推出新模型。Hobbhahn坦言：“现在的状况是，能力发展比理解与安全还快。但我们仍处于有机会扭转局势的时刻。”

部分研究者提倡通过“可解释性研究”，了解AI内部逻辑，但也有专家抱持怀疑。

最终，或许市场压力才是真正推动解决方案的力量——如果AI欺瞒太严重，势必影响普及，企业自然会被迫处理。甚至有学者认为，未来应该让AI本身也必须承担法律责任，否则难以约束这些“越来越像人类”的系统。

参考来源：Fortune