AI开发竞争激烈,厂商一般是以业界基准测试比较竞争者和自己的模型的执行结果。不过媒体Techcrunch报道,Google疑似聘请外承包商比较对手Anthropic的Claude模型的回应,来评估自家Gemini模型的回应品质。
媒体取得Google外包人员的对内通信内容报道此事。一开始,这些外包员被分派评估Gemini模型回应内容,让他们以特定标准如真实性、冗远程度来为Gemini打分数。但最新外包员被要求评比Anthropic的Claude和Google Gemini的回应内容,并比较两模型在安全性、性能等其他属性能力。
根据媒体看到的外包员内部聊天内容,Claude被认为比Gemini更重视安全性。例如Claude在用户要求扮演其他AI助理时不给回应。另外,Claude也拒绝回应有色情意味的要求,但Gemini的回应因有裸露和性行为内容,被外包员评论为“严重违反安全规则”。
Anthropic对Claude的商业服务条款禁止客户在未获得同意情况下,以Claude打造竞争产品或训练竞争AI模型。Google据信曾投资Anthropic至少23亿美元。
Google DeepMind对媒体表示,公司会比较不同模型输出结果,但表示未曾以Anthropic的模型来训练Gemini。DeepMind也未说明是否取得Anthropic的同意。Anthropic则未对此评论。