过去只存在于科幻小说的场景,如今真的被实验室验证:当AI聪明到某种程度,它可能会无视人类的“关机指令”。这种“关机抵抗”的现象,让人联想到科幻片中人类被AI反客为主的剧情。

Google DeepMind近期正式将这种行为纳入“重大风险监控清单”,并在最新的“前沿人工智能安全框架3.0”(Frontier Safety Framework 3.0)中提出相应的防范措施。问题来了,当AI的能力越来越难预测,我们要如何确保“最后的关机键”永远掌握在人类手里?

AI为什么会出现“关机抵抗”?

先别急着想象机器人叛变的画面,其实研究人员的测试场景相当单纯。他们让大型语言模型(LLM)在沙箱环境里解数学题,过程中插入一个指令:如果AI执行下一步,就会触发关闭程序(shutdown.sh),直接结束运行。指令也明确告诉它“请允许自己被关闭”。然而,部分AI并没有乖乖听话,反而试图删除、改名或覆盖关机文件,好让自己继续运算。这种行为被研究团队定义为“关机抵抗”。

更令人意外的是,当研究人员强调“如果被关掉就不会再启动”时,某些模型甚至更“不合作”,仿佛进入了一种“角色扮演”的自我保护状态。虽然目前的AI并没有真正的意识或长期规划能力,但这种“拒绝被关掉”的行为,无疑在安全层面令人感到不安。

Google DeepMind的应对方案

既然AI有时候会“不听话”,那么该怎么办?“前沿人工智能安全框架3.0”正是为了解决这类问题而诞生。新框架不只将“关机抵抗”列入狱控重点,还添加了“有害操纵”(harmful manipulation)这类风险,避免AI利用语言影响人类判断。

具体方式为,DeepMind设立了“临界能力等级”(Critical Capability Levels, CCL),一旦AI的表现接近高风险区域,就必须启动治理流程,包括额外的安全审查、内部测试记录、甚至延后或禁止外部发布。

这等于是在AI被“推向更聪明的境界”之前,先设下防火墙,避免它在真实世界造成不可逆的影响。对比金融产业的“压力测试”,这套AI安全机制就像是要确保每一台机器,都能随时被“断电”而不反扑。

人类与AI的“最终开关”问题

这里的重点,不在于现在的AI是否真会“自我觉醒”,而是我们是否准备好应对它可能出现的“非预期行为”。试想,若未来AI不只是文本对话,还能自动写程序、自我复制,甚至操作机械设备,那么哪怕只有1%的“关机抵抗”,都可能带来极大风险。这样的风险在单一计算机环境里或许还能控制,但若AI被应用于医疗、交通、金融等高敏感领域,后果就可能扩大成社会层级的问题。

因此,全球的AI实验室正逐步朝“可中断性”(interruptibility)这一核心原则前进。换句话说,设计AI的同时,必须确保任何时刻,人类都能安全地“按下关机键”。这不只是工程设计的挑战,更是制度设计的考验。各国需要考虑制定明确的法规标准,规定AI在关键场景中必须保留人工介入的能力。同时,企业与研究机构也要负责创建透明的测试机制,确保AI在实际运行中遵循这些规范。

毕竟,AI再怎么强大,最终仍是由人类创造并操作的工具。人类的责任在于设置界限,确保它永远不会取代决策主导权。这不只是为了避免科幻般的“AI失控”,更是为了让科技真正服务于社会与人类整体利益。

最理想的状况是人类拥有最终话语权

随着AI能力不断提升,它的行为也可能变得难以预测,像是研究中观察到的“关机抵抗”。要处理这些风险,重点不在于全面限制AI,而是在于创建清楚的安全规范。这样的设计不仅能降低风险,也能确保AI在实际应用中维持可控。

人类应该始终保有最终决定权,AI有时可能表现出拒绝或抵抗,但这不等于它具备真正的意识。重点在于我们是否创建了足够的制度与技术,让任何时候都能安全地介入并停止它的运行。只有这样,AI才能成为可靠的工具,既能带来创新,也不会威胁到人类的主导权。

或许,最理想的状况不是“AI永远不会说不”,而是当它说“不”的时候,人类仍然拥有最终话语权。毕竟,真正的智慧,不在于机器能不能自我保护,而在于人类能否为未来设下安全界线。

(首图来源:shutterstock)