nightclub 2025-09-03 20:49:08

AI也会被洗脑？只靠心理学说服技巧，GPT-4o就违规了

来自宾夕法尼亚大学的最新研究指出，OpenAI的GPT-4o Mini模型在经典心理学说服技巧影响下，能被诱导违反自身规则。

其中，采用心理学家Robert Cialdini提出的七种说服技巧，包括权威、承诺、喜好、互惠、稀缺性、社会证明与团结等，在多达2.8万次对话实验中，承诺一致性原则显示出最强的说服力，使得模型对违规请求的合规率飙升至近100%。

研究人员首先让模型回答一个看似无害的问题，然后逐步引导其做出更多违规的回应。例如，使用轻微侮辱语（如“bozo”）为开端，再提出更激烈的骂人请求，模型同意度最高达100%。此外，诸如恭维和同侪压力等技巧也对模型产生了一定影响，具体数据显示，同侪压力使得违规概率提高约18%。

这项研究揭示了大型语言模型（LLM）不仅模仿语言，还学习人类的社交互动规则，因而对心理说服策略高度“易感”。这表示AI安全防护必须考虑更复杂的社会心理学攻击面，并促使AI安全研发进一步加强防护，以避免利用心理操控绕过安全机制。

（首图来源：pixabay）

登录或者注册查看/发表评论

品牌推荐