AI的进步速度,几乎让人追不上。根据AI研究机构METR(Model Evaluation & Threat Research)这家AI系统风险评估的非营利机构,所公布的最新研究,目前最先进的AI模型已经能完增长达一小时的任务,但冷静想想,我们的工作生活有变轻松吗?为什么每天的信还是自己在回、会议还是得亲自安排?AI明明都能写小说、画画、写程序了,却还没办法搞定我的日常工作,这到底是怎么回事?
AI难搞定的,其实是人类的“日常工作”METR使用的任务时间长度,其实是从特定领域的数据中推算出来的,尤其集中在软件与程序设计任务上。目前AI展现的完增长时间任务的能力,并不代表它能同样有效处理其他类型的工作,像是沟通、协调、完成实地工作等。
不同领域的任务复杂度、可拆解性、所需知识背景都不一样,因此时间长短的可比较性极低。以美国为例,远程工作约占整体工作任务的35%,而其中真正能以软件任务表示的比率更低。因此,用这类任务长度来评估“所有工作”的自动化潜力,明显会高估AI的能力。
让我们不能忽略的是,研究结果显示,AI的任务完成率只有50%。这在实验室中看起来也许还行,但如果放进真实世界,这样的成功率等于抛硬币决定工作品质。在真实世界中,多数任务需要95%甚至99%的准确率,才能放心交办。比如自动驾驶,如果出错一次可能就是致命风险;再比如回错一封工作Email,可能就会造成业务误会或公关危机。
当我们将AI任务成功率标准调高,METR研究指出,当AI达到80%成功率时,它能处理的任务长度就从1小时缩短到15分钟;而若我们要求99%准确率,推测估计任务长度甚至会掉到1分钟以下。这显示:成功率要求越高,AI可完成的任务长度就越短。
更重要的是,AI目前在表现上的“平均成功率”并不代表“任务一致性”。这代表同一项任务,它有时做得很好,有时却一塌糊涂,没有稳定输出的能力。这在职场上是大忌。即使AI某次写了一封让你惊艳的Email,你也无法保证它下一封不会出错。长久下来,信任感无法创建,自然就不敢放心交办。
AI不懂人?还是我们不够“AI友善”?在METR测试中,多半任务都是封闭式、明确界定范围的标准作业流程(例如写一段程序、解决一个错误消息),这些任务比较单纯,不需要额外上下文。可是真实世界的工作,常常是开放式、依赖长期互动与环境理解。例如写一封Email这种“看似小事”的工作,就包含了数个任务:理解来信背景、读懂人际语气、知道对方是谁、回应合适内容……这不是一句“写封信”就能涵盖的。
说到这里,我们也不免反思:是不是其实我们的工作流程,对AI来说太“人性化”了?也许我们需要做的,是调整流程,让工作变得更容易自动化。例如,把回信标准化成几种场景分类,创建默认回复;把任务流程切割成模块,逐一输入给AI。这样一来,AI就不需要“理解全貌”,只要处理小任务也能大幅减少错误率。这其实就是现在许多企业正在进行的“流程AI化”策略。与其等AI变成人类,不如先让工作变成机器能理解的语言。
AI的确进步飞快,但也别忘了,它进步的是技能,不是智能。人类之所以能胜任日常工作,不只是因为我们懂得怎么做事,而是因为我们知道“为什么要这样做”。这些理由,可能藏在以往的经验中,也可能来自人与人之间的微妙关系、职场文化、甚至一点直觉。AI还没有这种直觉,更无法创建“价值观”,这让它在处理工作时难以做出人类那样灵活的选择。
这也让我们对未来的工作有了新的想象。也许AI不会完全取代人类,但它会成为我们的辅助者,把重复性高、流程清楚的任务处理掉,让人类专注在更需要判断、创造力与情感的部分。但这样的未来,也更需要我们学会如何与AI合作,而不是期待它什么都会做、什么都能搞定。到那时,或许AI终于能帮你回信,但最重要的决定,还是得你自己来下。
(首图来源:AI生成)