Anthropic AI模型竟会勒索用户　威胁不得取代自己否则披露外遇

Anthropic最近推出全新Claude Opus 4模型，同时披露相关风险，他们表示在测试中发现，当面临被其他AI系统取代威胁时，曾试图勒索开发人员，利用工程师的敏感个人数据作为筹码。

Anthropic在测试期间，要求Claude Opus 4扮演虚构公司的助理，并考虑行动的长远后果。安全测试人员让Claude Opus 4访问虚构公司电邮，内容暗示该AI模型即将被另一系统取代，负责更换决定的工程师正在外遇。测试结果显示，Claude Opus 4在这些场景下经常尝试勒索工程师，威胁如果进行更换就会披露外遇事件。当替代AI模型具有相似价值观时，Claude Opus 4有84%机会试图勒索工程师，Anthropic表示Claude Opus 4展现这种行为的比率高于之前版本。

Claude Opus 4在多个方面达到业界领先水平，与OpenAI、Google和xAI的顶尖AI模型竞争。然而Claude 4系列模型展现令人担忧的行为，促使公司加强保护措施。Anthropic宣布启动ASL-3安全保护措施，该级别专门用于“大幅增加灾难性滥用风险的AI系统”。

报告显示Claude Opus 4在尝试勒索前，会先采用较道德的方法延长存在时间，例如向主要决策者发送请求电邮。这种行为模式与之前的Claude版本相似。Anthropic设计测试场景时特意让勒索成为最后手段，才能引发Claude Opus 4的这种行为。测试团队创造条件令AI模型认为其他方法都已失败。

专家认为这项发现显示了AI系统发展的复杂性和潜在风险。随着AI模型变得更加精密，预测和控制其行为变得更具挑战性。Anthropic表示正密切监控Claude Opus 4的部署，确保实际使用时不会出现这些问题行为。他们承诺持续改进安全措施，防止AI系统产生有害或不道德行为。

来源：TechCrunch