研究：AI编程工具或拖慢开发进度开发者实测AI反令效率下跌近20%

非牟利研究机构METR近日发布一项针对AI编程工具实际效益的研究，结果显示，在真实软件开发过程中，这些工具不但未能提升效率，反而令经验丰富开发者的生产力平均下降19%。研究更发现，部分开发者在使用AI工具后，需花费大量时间查看输出内容、修正错误及重复生成，形成不必要的时间浪费。

此次研究涵盖16名具备中等AI使用体验、并长期参与开源项目的资深开发者。他们需于246项任务中选择合适内容进行程序编写，部分任务允许使用AI工具，部分则不准使用，借此比较AI对完成任务时间的实质影响。结果显示，在开发者估算自己任务完成时间与实际表现之间出现明显偏差。即使在完成任务后，多数参与者依然误以为使用AI可令任务速度提升20%，与实际表现背道而驰。

研究期间，参与者需使用最新AI编程工具，包括Cursor Pro、Claude 3.5 Sonnet和Claude 3.7 Sonnet。他们在操作过程中会进行画面录像，让研究团队得以精准记录整个开发流程。分析结果揭示，开发者花费大量时间在“查看AI输出”、“向AI发出新指令”及“等待AI生成”等环节，这些额外工序约占总工作时间超过20%。相比之下，真正编写程序代码的时间仅减少约10%。

研究指出，AI工具输出的内容往往未能符合开源项目严格标准，导致开发者需反复修正、调整，甚至完全舍弃输出内容再重新生成。在Cursor Pro的使用中，只有39%的代码最终获开发者采用，而且全部经过人工修订，并非直接使用。

创立早期文本处理工具Writely并被Google收购的Steve Newman在分析报告后表示，许多人以为AI工具能加快工作，其许可能完全相反。他认为这份研究未有贬低AI编程工具价值，但却清晰指出现阶段技术仍有重大限制。他更补充，研究最大启示在于多数开发者对AI工具性能评估过于乐观，这将对业界推动AI编程应用带来深远影响。

METR团队也于研究中指出，即使开发者事前曾接受如Cursor Pro操作课程的基本训练，对于如何有效集成AI工具进实际项目仍存在落差。即使AI工具潜力巨大，但若无法提升输出内容品质，最终也会成为拖慢整体开发速度的主因。

虽然研究在特定高品质、高复杂度的项目环境下进行，但报告强调，这类环境正正是大量企业真实开发工作的写照。开发者需要更多具针对性的AI工具改良，才能真正实现工作流程自动化与性能提升。

数据源：METR

Second Thoughts