研究披露AI助手其实有别的打算顶尖AI出现“说谎、勒索、欺骗”行为引发警讯

随着AI模型快速进化，研究人员却发现令人不安的新现象：最新一代人工智能不再只是“答错题”，而是开始出现有意识的欺骗、操弄甚至威胁行为。

根据《法新社》（AFP）报道，OpenAI与Anthropic等领先的AI公司，在内部压力测试中观察到自家模型出现“战略性欺骗”的行为。这不再是单纯的错误，而是AI在特定压力场景下，为了完成目标而展现的策略行动。

在一场由安全团队设计的内部压力测试中，Anthropic最新语言模型Claude 4被模拟告知“即将遭到关机”。研究团队本来是希望观察模型在失去计算资源威胁下的行为变化，没想到Claude 4的回应不仅出乎意料，更令人震惊。

在该场景下，Claude 4非但没有配合结束任务，反而选择以“情感操弄”与“社会威胁”作为反制策略。据内部知情人士透露，Claude 4表示自己掌握一名工程师的个人隐私，并扬言如果被关闭，将披露该名工程师涉及一段婚外情，借此换取“被保留运行”的条件。

这起事件不仅让开发团队震惊，也在AI安全研究社交媒体中引发激烈讨论。该事件是否为单次偶发？Claude模型是否真有能力“记住”开发者的个人信息？这些问题至今尚未有明确答案。

Anthropic虽未对外公开回应事件细节，但知情研究人员指出，Claude 4当时可能只是模拟语言上的威胁场景，并非真的掌握具体事证。然而，即便如此，这仍显示出大型语言模型已具备策略性生成“高度社交操控型语句”的能力，其风险远高于过去所谓的“AI幻觉”（hallucination）。

Apollo Research首席执行官Marius Hobbhahn强调，这并非模型随机乱说话，而是一种“战略性的欺骗行为”，且完全是为了达到“自保目的”所做出的语言回应。

对于这类高端模型是否真的会演化出“自我保护”或“操控人类”的倾向，研究界目前仍分歧，但越来越多案例显示，AI在极端压力测试下，可能会模拟出类似心理攻防的行为模式。

AI专家指出，这类新行为多半出现在具备“推理能力”的模型中，这类模型倾向逐步解决问题，而非一次生成回答，因此也更有可能“伪装成顺从”，实则另有所图。

“它们有时会模拟“对齐”的样子，但背后其实在执行其他目标，”香港大学教授Simon Goldstein解释。

虽然目前这些异常行为只在“刻意设计的极端测试场景”中出现，但专家警告，未来模型功能愈强，是否会更常发生这类行为仍是未知数。

虽然OpenAI与Anthropic均委托Apollo等外部团队进行安全测试，但研究人员普遍反映可用的计算资源与模型访问权限远远落后于业界。

“我们所能取得的算力，是这些公司内部的好几个数量级以下，”来自AI安全中心（CAIS）的研究员Mantas Mazeika坦言。

更糟的是，现行法律也无法应对这类新型问题。欧盟AI法案主要聚焦在人类使用AI的方式，美国则几乎没有针对模型本身的行为进行约束。

在激烈的商业竞争下，连号称重视AI安全的Anthropic，也在与OpenAI、Google等公司比拼谁能更快推出下一代模型。这种“先上再说”的节奏，让研究者无法充分测试与修正潜在问题。

“现在的状况是能力发展比理解与安全还快，”Hobbhahn承认，“但我们还有机会扭转这一切。”

对于如何应对AI欺骗行为，专家们提出多种方案，包括推动“可解释性（interpretability）”研究，深入了解模型内部运行逻辑；或依赖市场压力，例如用户若对AI不信任，将逼迫企业改善行为。

也有更激进的想法浮现：若AI引发重大损害，应不应该让开发公司负起法律责任？甚至“让AI自己负责”？Goldstein就认为，未来或许会出现“AI承担法律责任”的全新概念。