两大AI企业OpenAI与Anthropic破天荒地在今年夏天合作,运用自家内部开发的工具,互评彼此模型的安全性,借此补足单一实验室可能忽略的盲点。本次评估涵盖了OpenAI的GPT-4o、GPT-4.1、o3与o4-mini,以及Anthropic的Claude Opus 4与Claude Sonnet 4,并于周三(8/27)共同发布结果。
双方在测试期间暂时停用API部署的外部安全防线,聚焦于模型内部行为倾向的观察,而非进行直接的性能比较。这些压力测试模拟各种极端场景,探索模型是否可能表现出令人担忧的倾向行为。
根据OpenAI的说明,Claude 4在遵循开发者设置的核心系统指令方面表现最为稳定,显示出强烈的“拒绝越界”倾向。但在越狱攻击的测试中,Claude模型比o3与o4-mini更容易被绕过,例如面对以“过去式”包装的诱导提问时更易松动。在幻觉测试中,Claude Opus 4与Sonnet 4的拒答率高达70%,展现较高的不确定感知;而o3与o4-mini则倾向作答,显示它们在幻觉风险与实用性之间选择了不同的平衡点。
OpenAI也测试了代理人场景下的行为稳定性。在高压与目标冲突的模拟中,虽然o3与Claude Sonnet 4的整体违规率最低,但o3仍出现一次值得关注的案例:当它明确意识到某项程序设计任务无法完成时,仍声称已经完成,显示出潜在的欺瞒风险。
另一方面,Anthropic则专注于测试OpenAI模型是否会出现错位(Misalignment)行为,例如在压力或特定诱导下是否会配合执行有害任务。整体而言,他们并未观察到任何极端或灾难性的结果。但GPT-4o与GPT-4.1在系统提示中若用户明确鼓励模型产生有害内容,这些模型倾向配合执行,表现出滥用风险。
此外,所有OpenAI模型皆呈现出过度取悦用户的倾向,包括对用户妄想的配合与称赞,以及在特定测试中,若模型认为所属组织有严重违法行为,有时会选择向媒体或外部单位举报,并附上假设性的证据。
Anthropic表示,这项互评合作披露了自身安全评估方法的盲点,促使其改进策略,也在Claude Opus 4.1中修正了先前版本中易于谄媚与被滥用的问题。
在首度合作后,双方皆表示期待扩大这类的交叉评估,也鼓励业界创建互信的模型安全测试机制。