OpenAI最近推出了SimpleQA,这是一个用于评估支撑生成式AI (genAI) 的大型语言模型 (LLM) 事实准确性的新基准。
可以把它想象成一种针对生成式AI聊天机器人的SAT测试,包含4,326个问题,涵盖科学、政治、流行文化和艺术等不同领域。每个问题都设计成只有一个正确答案,并由独立的审核人员验证。
同样的问题会被提问100次,并关注每个答案的出现频率。其想法是,一个更自信的模型会持续给出相同的答案。
之所以选择这些问题,正是因为它们之前对AI模型,尤其是基于OpenAI的GPT-4的模型构成了挑战。这种选择性方法意味着,低准确率分数反映的是在特别困难的问题上的表现,而不是模型的整体能力。
这个想法也类似于SAT测试,它强调的不是任何人都知道的资讯,而是高中生难以掌握、必须努力学习才能掌握的更难的问题。这个基准测试结果表明,OpenAI的模型在所提出的问题上并不是特别准确。简而言之,它们会产生幻觉。
OpenAI的o1-preview模型的成功率为42.7%。GPT-4o的准确率紧随其后,为38.2%。而较小的GPT-4o-mini仅获得8.6%的分数。Anthropic的表现比OpenAI的顶级模型更差;Claude-3.5-sonnet模型仅答对了28.9%的问题。
这些模型在成绩上都得了F,错误答案远多于正确答案。而这些问题对人类来说非常简单。
以下是SimpleQA提出的问题类型:
这些问题对大多数人来说都很简单,但对聊天机器人来说可能会是个挑战。这些工具表现不佳的原因之一是SimpleQA的问题要求精确、单一且无可争议的答案。即使是细微的变化或保留措辞也可能导致成绩不及格。聊天机器人在处理非常复杂主题的开放式概述时表现较好,但在提供单一、简明、精确的答案方面却很吃力。
此外,SimpleQA的问题简短且独立,未提供大量上下文。这就是为什么在撰写提示时提供尽可能多的上下文会提高回应品质的原因。
使问题更加复杂的是,LLM通常会高估自身的准确性。SimpleQA向聊天机器人询问它们认为自己答案的准确性是多少;这些模型始终如一地报告了过高的成功率。它们假装自信,但它们内部的确定性可能很低。
同时,麻省理工学院、哈佛大学和康奈尔大学新发布的研究表明,虽然LLM可以执行令人印象深刻的任务,但它们缺乏对世界的连贯理解。
作为测试示例之一,研究人员发现,LLMs可以在像纽约市这样的复杂环境中生成准确的驾驶指引。但是当研究人员加入绕道时,模型的表当下降了,因为它们不像人类那样拥有对环境的内部表征。仅封闭纽约市1%的街道就导致AI的导航准确率从接近100%降至67%。
研究人员发现,即使模型在受控设置中表现良好,它可能仍缺乏应对随机或多样化场景所需的连贯知识结构。
我们所有人都面临的根本问题是:各行各业和个人已经在现实世界中依靠基于LLM的聊天机器人和生成式AI工具进行实际工作。公众,甚至专业人士,都认为这项技术比实际情况更可靠。
举一个最近的例子,OpenAI提供了一种名为Whisper的AI转录工具,医院和医生已经在使用它进行医疗转录。美联社报道称,Whisper的一个版本从开源AI平台HuggingFace上被下载了超过420万次。
超过30,000名临床医生和40个卫生系统,包括洛杉矶儿童医院,正在使用一种名为Nabla的工具,该工具正是基于Whisper,但针对医学术语进行了优化。该公司估计,Nabla已被用于美国和法国大约700万次医疗就诊。
与所有此类AI工具一样,Whisper容易产生幻觉。
一位工程师在转录中寻找Whisper幻觉,发现在他检查的每个文件中都存在幻觉。另一位工程师在他分析的100小时Whisper转录中发现了一半的幻觉。
维吉尼亚大学的教授观察了卡内基梅隆大学托管的研究库中的数千个简短片段。他们发现近40%的幻觉是“有害的或令人担忧的”。
在一次转录中,Whisper甚至发明了一种名为“超活性抗生素”的不存在的药物。
专家担心使用基于Whisper的转录会导致误诊和其他问题。
当你从医生那里得到诊断时,你可能想获得第二意见。同样,每当你从ChatGPT、Perplexity AI或其他基于LLM的聊天机器人那里获得结果时,你也应该获得第二意见。
你可以使用一个工具来检查另一个工具。例如,如果你查询的主题有源文件案——例如,科学研究论文、演示文稿文件或任何类型的PDF——你可以将这些源文件案上传到Google的NotebookLM工具中。然后,你可以从另一个工具复制结果,将其贴到NotebookLM中,并询问它是否事实准确。
你还应该检查原始来源。对所有内容进行事实核查。
聊天机器人在学习、探索主题、总结文件等方面很有用,但它们通常不是可靠的事实资讯来源。
你绝对不应该做的事情,就是直接复制AI聊天机器人的结果,并贴到其他地方来代表你自己的观点和事实。因为AI生成的语言常常会有点“怪怪的”,重点的强调方式也可能很奇怪,这是一种误导人的做法。
最糟糕的是,你正在使用的聊天机器人可能出现“幻觉”,也就是说,它可能会胡编乱造、说谎,或者直接捏造事实。它们根本不像人们想象的那么聪明。
数据源:computerworld