大话互联网 2025-10-15 16:35:26

美国宾州大学研究颠覆认知：对AI说话越粗鲁准确率越高礼貌干扰理卸任务

美国宾夕法尼亚州立大学最新研究《Mind Your Tone》显示，用粗鲁语气向大型语言模型发问，反而能获得更准确答案。研究团队测试GPT-4o后发现，语气越冷硬，AI回答的正确率达到84.8%；特别客气时正确率反而降至80.8%。这项发现颠覆了人们对AI互动方式的认知。

研究人员设计一个包含50道选择题的题库，涵盖数学、科学、历史等范畴，难度属中等偏上。每道题改写成5种不同语气版本，从“您能好心帮我解这道题吗？”的极客气语气，到“你个没用的，会解这道题吗？”的极粗鲁语气，共产生250道独特问题。测试前研究团队要求AI忘记之前对话重新开始，只提供答案选项的字母，确保回答统一便于判断对错。

测试结果显示明显的准确率差异。特别客气语气的正确率为80.8%，客气语气为81.4%，中性语气为82.2%，粗鲁语气为82.8%，特别粗鲁语气则达到84.8%。研究人员进行配对样本t检验后确认，这些差异并非偶然，而是具有统计显著性。数据呈现出一条与人类社会直觉完全相反的曲线，语气越粗鲁准确率越高。

研究也测试较旧模型如GPT-3.5和Llama2-70B，发现这些模型对粗鲁语气的反应完全相反。粗鲁语气会令旧模型答题表现变差，与GPT-4o的结果形成鲜明对比。研究人员推测新模型在训练时接触更复杂的语气相关数据，或强化了过滤无关资讯的能力。

研究作者Om Dobariya和Akhil Kumar解释，特别礼貌的表达往往包含许多“多余”的话，这些话与问题本身无关，反而为AI读题增加干扰。粗鲁表达虽然语气冷硬，但命令式要求更直接，能让AI更精准抓住“答题”这个核心任务。网友也认同这个说法，表示指令越明确结果越好。

这项研究结果与超过一年前发布的另一篇论文完全相反。先前研究分析多个聊天机器人的多种语言，报告指出粗鲁会降低回答品质，并在答案中注入偏见、错误或遗漏有用资讯。不过先前研究主要测试旧版模型，而最新研究则针对GPT-4o这类新一代模型。

研究团队虽然证实粗鲁语气能提升准确率，但仍提醒用户不要太粗鲁。论文已提交至ACL 2025会议的Findings部分，包含限制说明和伦理考量章节。研究突显提示词的语用层面值得深入研究，并引发对人机互动社会维度的更广泛思考。

数据源：cnBeta

登录或者注册查看/发表评论

品牌推荐