OpenAI于9月15日发布了GPT-5-Codex,它是基于GPT-5的程序开发工具Codex的最新版本。这一代的Codex已经强化了环境集成与持续脉络关注能力,并具备较强的代理人行为,被视为从单纯模型向具备代理功能系统(agentic system)的一大转变,OpenAI称它是“更可靠的队友”。
GPT-5-Codex的重大升级之一是强化了环境集成能力:它现在能在命令行界面(CLI)、集成开发环境(IDE)、云计算/网页端、GitHub、甚至ChatGPT app等地方使用,且工作进度与项目脉络可以在这些环境中无缝保留。
具体而言,开发者可以先在CLI启动一个重构任务,之后转到VS Code或IDE扩展功能中预览或修改,再切换到云计算/网页版本进行较复杂的结构调整,整个过程中GPT-5-Codex能维持对项目状态与文件内容的理解。
GPT-5-Codex也能在不同环境中理解并利用特有的脉络资讯。例如,在IDE中,它会参考打开的文件与被选取的程序代码片段;在云计算环境中,能扫描项目结构,了解依赖关系,执行测试,并在程序库中寻找错误。
此外,GPT-5-Codex表现出较强的主动执行与监控开发任务能力。当任务简单时,它回应快速;当任务复杂、重构范围大或涉及多文件时,它会投入更多思考。在测试中,有超过七小时连续自主工作、修正测试失败、最终成功交付实例的案例。
GPT-5-Codex在程序代码库上也能主动浏览、分析依赖性、执行测试来验证程序代码正确性,并在发现潜在问题时提供具体修改建议。
在性能与准确度的量化比较上,GPT-5-Codex的重构任务准确率为51.3%,高于GPT-5的33.9%;其用来评估真实软件开发任务的SWE-bench Verified成绩为74.5%,高过GPT-5的72.8%;在简单任务上,GPT-5-Codex使用的Token比GPT-5少了93.7%,而在最复杂的任务上,GPT-5-Codex思考的时间则是GPT-5的两倍。
图片来源/OpenAI