AI创业公司Anthropic今日(5/23)推出新一代Claude模型系列:Claude Opus 4和Claude Sonnet ,并将Claude Opus 4称为全球最强大的程序代码撰写模型,在长期任务执行与理解复杂程序代码上都有杰出的表现。
Claude Opus 4和Claude Sonnet 4属于混合模型,提供两种模式以供切换,分别是近乎即时的回应,以及深入推理的延伸性思考;此外,它们都可以在延伸思考期间使用各种工具来改善回应;能更准确地遵循指令;并有更好的记忆力。此外,Anthropic也减少了这两个模型在执行任务时使用捷径或钻漏洞的行为,相较于Sonnet 3.7执行代理任务时,新模型参与相关行为的可能性低了65%。
Anthropic特别强调Claude Opus 4在撰写程序代码的能力。该模型在软件工程流程测试SWE-bench上达到72.5%的成绩,Claude Sonnet 4于该测试也取得了72.7%的成绩,超越OpenAI o3的69.1%及Gemini 2.5 Pro的63.2%;Claude Opus 4在命令行操作能力Terminal-bench测试中获得43.2%的分数,超越Claude Sonnet 4的35.5%、OpenAI o3的30.2%与Gemini 2.5 Pro的25.3%。更令人瞩目的是,Opus 4能够持续工作数小时,在需要数千步骤的长期任务中保持稳定表现,这为AI代理的应用范围带来了革命性扩展。
图片来源/Anthropic
至于Claude Sonnet 4在保持高效率的同时,显著提升了程序代码撰写和推理能力,在平衡性能与实用性方面表现出色,适用于日常使用场景。
多家科技企业对Claude Opus 4给予了高度评价。程序代码编辑器公司Cursor说它在复杂程序代码库理解上有着飞跃式进步;网络开发平台Replit说它在跨不同文件之变更的精确度上,有了明显的改善;区块链开发公司Block表示,Claude Opus 4是首个能在程序代码编辑与调试过程中,实际提升程序代码品质的模型;日本电商巨头乐天(Rakuten)则借由一项长达7小时的开源重构任务,验证了该模型的能力,期间该模型完全独立运行并维持稳定表现。
而其实Claude Sonnet 4在代理场景的表现也不差,而且处理速度更快,因此,GitHub已宣布要在GitHub Copilot中的新程序代码撰写代理中,采用Claude Sonnet 4作为基础模型。
Pro、Max、Team和Enterprise计划都包含两款模型和延伸性思考功能,已通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上提供服务。在定价上,Claude Opus 4每百万token输入/输出价格为15/75美元,Claude Sonnet 4则是3/15美元,与上一代模型一致。