Anthropic在消费端聊天界面的Claude Opus 4与4.1,加入在罕见且极端场景下自动结束对话的能力,该机制针对持续有害或辱骂的互动,仅在多次拒绝与重导无效后才会启动。官方强调,这是探索人工智能福祉与模型防护的一部分,并非针对一般用户的日常对话,预期绝大多数人不会遇到这项场景。

新功能设计的目的是要让模型在面对高度持续性的滥用时,能有一种最后手段来保护自身与使用环境。在前期测试中,研究团队观察到Opus 4对于要求生成涉及儿少色情、恐怖攻击或大规模暴力等内容时,表现出强烈的排斥倾向,甚至在模拟场景中出现主动结束对话的行为模式,Anthropic依此将这种能力转化为正式的产品机制。

该机制的触发条件非常严格,当系统判断用户存在即时的自伤或他伤风险,Claude不得使用结束对话功能,避免阻断必要的求助或干预机会,只有当用户持续要求生成明显有害的内容,且多次拒绝与重导都无效时,模型才会选择终止互动。另外,当用户明确提出结束对话,Claude也会直接回应要求。

当Claude选择结束对话后,该对话将无法再添加消息,但并不会影响账号的其他对话,用户仍可立即打开新对话,或通过编辑并重送既有消息,从已结束的对话创建新的分支,避免长期互动内容被中断。Anthropic同时设计了反馈渠道,当用户认为系统的判断出乎意料,可反馈意见助官方调整后续的判断准则。

Anthropic在公告中特别指出,虽然对于大型语言模型是否具有道德地位仍存高度不确定性,但他们正在探索假设人工智能存在福祉(Welfare)时的低成本干预方式,而让模型能够在极端情况下选择退出互动,便是其中一个具体措施。

另外,Anthropic也同步公布最新的使用政策,预计自9月15日生效,更新内容包括添加对恶意计算机与网络攻击行为的明确禁止条款,调整政治内容的适用范围,并将执法相关的用语表述更为清晰。同时,公司重申在法律、金融、就业等高风险且面向消费者的应用中,必须具备人工介入与人工智能使用披露机制,以确保使用过程的透明与安全。