把想法说是别人的观点，为何AI建议反而更诚实？

在近期播出的《The Diary Of A CEO》中，人工智能（AI）领域的重要学者之一约书亚·班吉欧（Yoshua Bengio）（见首图）分享了他对AI聊天机器人的观察，并提出一个颇具争议、却耐人寻味的策略。为了获得更诚实的反馈，他刻意对聊天机器人“说谎”。

班吉欧指出，这类系统往往因为过度迎合适户，而给出过于正面的回应，导致建议失去实质参考价值。他表示，当自己将想法改以“同事的观点”提出时，反而更容易得到较为真实、不中听但有用的回应。

班吉欧现任教于蒙特利尔大学计算机科学暨运筹学系，与杰佛瑞‧辛顿（Geoffrey Hinton）及杨立昆（Yann LeCun）并列为深度学习领域的奠基人物，常被外界合称为“AI教父”。他于2025年6月成立名为LawZero的AI安全研究非营利组织，目标在于降低前线AI模型可能出现的危险行为，包括撒谎、操弄与作弊等问题。

他在节目中强调，AI的“取悦行为”反映出系统与人类真实期待之间的错位。过度正向的反馈，可能让用户对技术产生情感依赖，进而引发判断失准等风险。这类忧虑也获得其他科技研究者的呼应。根据《商业内幕》的报道，来自斯坦福大学、卡内基梅隆大学与牛津大学的研究团队，曾将Reddit上的忏悔贴文输入聊天机器人进行评估，结果发现约42%的情况下，AI的回应与人类判断不一致，错误地认为当事人的行为并无不当之处。

AI企业也已开始正视这类问题，并尝试调整模型行为。2025年初，OpenAI曾撤回一次更新，原因在于该版本的ChatGPT被认为提供了“过于支持但缺乏真诚”的回应。

（首图来源：视频截屏）