在近期播出的《The Diary Of A CEO》中,人工智能(AI)领域的重要学者之一约书亚·班吉欧(Yoshua Bengio)(见首图)分享了他对AI聊天机器人的观察,并提出一个颇具争议、却耐人寻味的策略。为了获得更诚实的反馈,他刻意对聊天机器人“说谎”。

班吉欧指出,这类系统往往因为过度迎合适户,而给出过于正面的回应,导致建议失去实质参考价值。他表示,当自己将想法改以“同事的观点”提出时,反而更容易得到较为真实、不中听但有用的回应。

班吉欧现任教于蒙特利尔大学计算机科学暨运筹学系,与杰佛瑞‧辛顿(Geoffrey Hinton)及杨立昆(Yann LeCun)并列为深度学习领域的奠基人物,常被外界合称为“AI教父”。他于2025年6月成立名为LawZero的AI安全研究非营利组织,目标在于降低前线AI模型可能出现的危险行为,包括撒谎、操弄与作弊等问题。

他在节目中强调,AI的“取悦行为”反映出系统与人类真实期待之间的错位。过度正向的反馈,可能让用户对技术产生情感依赖,进而引发判断失准等风险。这类忧虑也获得其他科技研究者的呼应。根据《商业内幕》的报道,来自斯坦福大学、卡内基梅隆大学与牛津大学的研究团队,曾将Reddit上的忏悔贴文输入聊天机器人进行评估,结果发现约42%的情况下,AI的回应与人类判断不一致,错误地认为当事人的行为并无不当之处。

AI企业也已开始正视这类问题,并尝试调整模型行为。2025年初,OpenAI曾撤回一次更新,原因在于该版本的ChatGPT被认为提供了“过于支持但缺乏真诚”的回应。

(首图来源:视频截屏)