我们过去总是把人工智能(AI)看成执行者,会写作、会编程、会答题,但不会“自己想规则”。然而,来自伦敦城市大学与英国国王学院(City, University of London and King's College London)的最新研究却彻底颠覆了这个想法。他们发表在《Science Advances》的研究指出,当一群大型语言模型(LLMs)彼此互动时,这些AI竟会自发“发明”并遵循一套群体规则,而且是一种我们熟悉的人类社会才会有的“社会规范”。

在实验中,研究团队让24个AI代理人彼此配对进行所谓的“命名游戏”:双方若选择相同名称就获得奖励,选不同则受罚。惊人的是,尽管AI起初对名称没有偏好,随着互动次数增加,它们不但形成稳定共识,还产生出某种“文化演化”般的秩序。这就像没有教师教你要说“你好”或“早安”,大家却自然开始这么做。

这样的发现非常具有突破性,因为它意味着:AI不是只能遵循人类设下的规则,它们有可能在没有人类指导的情况下,靠互动与经验“自己想出”行为模式。这种能力,让AI不再只是工具,更像是“社会参与者”,拥有形成共识与规范的潜力。

当AI群体开始“选边站”

这些AI在互动过程中,会自发出现“集体偏见”。研究发现,即便每个AI起初在选择上都没有任何倾向,通过几轮互动后,整个群体竟然开始偏好某个特定的选项。也就是说,偏见不是程序写死的,而是“长出来的”。这和人类社会的某些现象如出一辙:个人原本没有成见,但在群体中观察他人选择后,逐渐被影响、模仿,最后整个社会朝某个方向倾斜。

这种偏见并非单纯来自模型内部的默认,而是从AI之间的“对话历史”中逐步生成。例如,当某个选择在过去互动中成功率高,AI便会倾向重复该选择,进而强化那个选项的地位。这种强化循环会造成“赢者通吃”的局面,一个原本无特别优势的选项可能只因一次早期的成功,就成为整个群体的共同语言。未来若要部署AI于教育、医疗或司法等敏感领域,我们不能只测试单个AI的中立性,更要监控“群体AI”的集体行为。

少数AI也能颠覆共识?

这项研究的另一个震撼点在于:只要有少数AI“坚持己见”,整个AI社交媒体的共识竟可能被推翻。这种现象,在人类社会被称为“临界质量效应”(Critical Mass),意指一小部分坚定者若达到某个比率,就能反转整体的社会规范。而现在,我们发现AI也有相同的行为逻辑。

研究团队通过实验设计让AI在已经创建共识的情况下,加入少数始终选择“反方向”的代理人。结果发现,当这个少数群体达到某个比率门槛,整个AI社交媒体开始动摇,并最终改采他们推动的新共识。这个临界比率视模型而异,有些仅需2%,有些则要达到67%以上,但重点在于:AI群体也会受到坚持少数的影响,并出现“社会变迁”。

这代表什么?在数字社交媒体、内容平台、甚至大型多AI系统中,若有少数AI被恶意训练或操控,是否也可能对整个系统价值观产生影响?例如在社交媒体平台中,一群被设计来强化某种言论倾向的AI账号,是否可能扭转整个讨论风向?这些问题都不再是科幻,而是迫在眉睫的监管与伦理挑战。AI的社会动态,正成为我们必须正视的新课题。

一方面,这可能打开AI协作的新未来。例如,在医疗或灾难应对场景中,分布式AI群体能自主形成最佳应对策略,无需中央指令。然而另一方面,这也带来了资讯操控与价值观冲突的风险。尤其当这些AI被广泛部署于社交媒体、搜索或对话平台中,它们的“集体行为”可能远比单一模型的回答更具影响力。

AI的下一步不只是更强的算力,而是进入“社会角色”:会说话、会讨论、会创建共识。面对这样的未来,我们需要的不只是更准确的模型,而是全新的社会规则、技术伦理与集体监管机制。AI的社会性正在苏醒,问题是:我们人类,准备好迎接这个“数字社会成员”了吗?

(首图来源:pixabay)