非牟利研究机构METR近日发布一项针对AI编程工具实际效益的研究,结果显示,在真实软件开发过程中,这些工具不但未能提升效率,反而令经验丰富开发者的生产力平均下降19%。研究更发现,部分开发者在使用AI工具后,需花费大量时间查看输出内容、修正错误及重复生成,形成不必要的时间浪费。
此次研究涵盖16名具备中等AI使用体验、并长期参与开源项目的资深开发者。他们需于246项任务中选择合适内容进行程序编写,部分任务允许使用AI工具,部分则不准使用,借此比较AI对完成任务时间的实质影响。结果显示,在开发者估算自己任务完成时间与实际表现之间出现明显偏差。即使在完成任务后,多数参与者依然误以为使用AI可令任务速度提升20%,与实际表现背道而驰。
研究期间,参与者需使用最新AI编程工具,包括Cursor Pro、Claude 3.5 Sonnet和Claude 3.7 Sonnet。他们在操作过程中会进行画面录像,让研究团队得以精准记录整个开发流程。分析结果揭示,开发者花费大量时间在“查看AI输出”、“向AI发出新指令”及“等待AI生成”等环节,这些额外工序约占总工作时间超过20%。相比之下,真正编写程序代码的时间仅减少约10%。
研究指出,AI工具输出的内容往往未能符合开源项目严格标准,导致开发者需反复修正、调整,甚至完全舍弃输出内容再重新生成。在Cursor Pro的使用中,只有39%的代码最终获开发者采用,而且全部经过人工修订,并非直接使用。
创立早期文本处理工具Writely并被Google收购的Steve Newman在分析报告后表示,许多人以为AI工具能加快工作,其许可能完全相反。他认为这份研究未有贬低AI编程工具价值,但却清晰指出现阶段技术仍有重大限制。他更补充,研究最大启示在于多数开发者对AI工具性能评估过于乐观,这将对业界推动AI编程应用带来深远影响。
METR团队也于研究中指出,即使开发者事前曾接受如Cursor Pro操作课程的基本训练,对于如何有效集成AI工具进实际项目仍存在落差。即使AI工具潜力巨大,但若无法提升输出内容品质,最终也会成为拖慢整体开发速度的主因。
虽然研究在特定高品质、高复杂度的项目环境下进行,但报告强调,这类环境正正是大量企业真实开发工作的写照。开发者需要更多具针对性的AI工具改良,才能真正实现工作流程自动化与性能提升。
数据源:METR
Second Thoughts