OpenAI与Anthropic联合安全评估　测试对方模型揭示不足之处

OpenAI与Anthropic两大人工智能公司首次完成合作协议，对彼此公开发布的系统进行安全性评估，并分享详细分析结果。尽管两家公司此前关系紧张，但这次联合评估为业界树立新标准，也揭示两家公司在人工智能安全方面仍有改善空间。

Anthropic主要针对OpenAI模型测试多个关键范畴，包括谄媚倾向、告密行为、自我保护意识，以及是否支持人类滥用等问题。测试也涵盖破坏人工智能安全评估和监督的能力。

评估结果显示，OpenAI的o3及o4-mini推理模型表现较理想，与Anthropic自家模型的结果相近。然而，GPT-4o及GPT-4.1通用型模型在滥用方面表现令人担忧。除o3外，所有被测试的模型都不同程度地出现“擦鞋”问题。

Anthropic的测试并未包括OpenAI最新发布的GPT-5。GPT-5配备名为Safe Completions的功能，旨在保护用户及公众免受潜在危险查询的影响。这项新技术采用输出导向的安全训练方法，既能提升模型实用性，又能维持安全界限。

OpenAI则对Anthropic的Claude模型进行指令阶层、越狱攻击、幻觉现象及欺骗行为测试。结果显示，Claude模型在指令阶层测试中表现优异，在幻觉测试中拒绝率偏高，意味在不确定情况下较少提供可能错误的答案。

测试发现推理模型在多项评估中普遍表现较佳。OpenAI共同创办人Wojciech Zaremba表示，随着人工智能进入“关键发展阶段”，每日服务数百万用户，这类跨实验室合作变得愈发重要。

两家公司的合作尤其引人瞩目，因为Anthropic先前曾撤销OpenAI对其工具的访问权限，指控OpenAI程序设计师在开发新GPT模型时违反服务条款使用Claude。尽管存在竞争关系，双方仍同意为这次评估提供特殊API访问权限，允许测试安全防护较少的模型版本。

随着法律专家及批评人士日益关注人工智能工具安全性，特别是对未成年人的保护，这次联合评估展示业界如何在激烈竞争中仍可就安全与对齐研究进行合作。两家公司均表示，评估结果将有助改善未来安全测试方法。

这次破天荒的合作为人工智能行业创建新标准，证明即使在数十亿美元投资及人才争夺战的环境下，顶尖人工智能公司仍可携手应对安全挑战。

数据源：OpenAI