
来自宾夕法尼亚大学的最新研究指出,OpenAI的GPT-4o Mini模型在经典心理学说服技巧影响下,能被诱导违反自身规则。
其中,采用心理学家Robert Cialdini提出的七种说服技巧,包括权威、承诺、喜好、互惠、稀缺性、社会证明与团结等,在多达2.8万次对话实验中,承诺一致性原则显示出最强的说服力,使得模型对违规请求的合规率飙升至近100%。
研究人员首先让模型回答一个看似无害的问题,然后逐步引导其做出更多违规的回应。例如,使用轻微侮辱语(如“bozo”)为开端,再提出更激烈的骂人请求,模型同意度最高达100%。此外,诸如恭维和同侪压力等技巧也对模型产生了一定影响,具体数据显示,同侪压力使得违规概率提高约18%。
这项研究揭示了大型语言模型(LLM)不仅模仿语言,还学习人类的社交互动规则,因而对心理说服策略高度“易感”。这表示AI安全防护必须考虑更复杂的社会心理学攻击面,并促使AI安全研发进一步加强防护,以避免利用心理操控绕过安全机制。
(首图来源:pixabay)











