传Google用Anthropic Claude测试Gemini模型

AI开发竞争激烈，厂商一般是以业界基准测试比较竞争者和自己的模型的执行结果。不过媒体Techcrunch报道，Google疑似聘请外承包商比较对手Anthropic的Claude模型的回应，来评估自家Gemini模型的回应品质。

媒体取得Google外包人员的对内通信内容报道此事。一开始，这些外包员被分派评估Gemini模型回应内容，让他们以特定标准如真实性、冗远程度来为Gemini打分数。但最新外包员被要求评比Anthropic的Claude和Google Gemini的回应内容，并比较两模型在安全性、性能等其他属性能力。

根据媒体看到的外包员内部聊天内容，Claude被认为比Gemini更重视安全性。例如Claude在用户要求扮演其他AI助理时不给回应。另外，Claude也拒绝回应有色情意味的要求，但Gemini的回应因有裸露和性行为内容，被外包员评论为“严重违反安全规则”。

Anthropic对Claude的商业服务条款禁止客户在未获得同意情况下，以Claude打造竞争产品或训练竞争AI模型。Google据信曾投资Anthropic至少23亿美元。

Google DeepMind对媒体表示，公司会比较不同模型输出结果，但表示未曾以Anthropic的模型来训练Gemini。DeepMind也未说明是否取得Anthropic的同意。Anthropic则未对此评论。