Anthropic发布Claude Opus 4与Claude Sonnet 4，前者号称是全球最强大的程序代码撰写模型

AI创业公司Anthropic今日（5/23）推出新一代Claude模型系列：Claude Opus 4和Claude Sonnet ，并将Claude Opus 4称为全球最强大的程序代码撰写模型，在长期任务执行与理解复杂程序代码上都有杰出的表现。

Claude Opus 4和Claude Sonnet 4属于混合模型，提供两种模式以供切换，分别是近乎即时的回应，以及深入推理的延伸性思考；此外，它们都可以在延伸思考期间使用各种工具来改善回应；能更准确地遵循指令；并有更好的记忆力。此外，Anthropic也减少了这两个模型在执行任务时使用捷径或钻漏洞的行为，相较于Sonnet 3.7执行代理任务时，新模型参与相关行为的可能性低了65%。

Anthropic特别强调Claude Opus 4在撰写程序代码的能力。该模型在软件工程流程测试SWE-bench上达到72.5%的成绩，Claude Sonnet 4于该测试也取得了72.7%的成绩，超越OpenAI o3的69.1%及Gemini 2.5 Pro的63.2%；Claude Opus 4在命令行操作能力Terminal-bench测试中获得43.2%的分数，超越Claude Sonnet 4的35.5%、OpenAI o3的30.2%与Gemini 2.5 Pro的25.3%。更令人瞩目的是，Opus 4能够持续工作数小时，在需要数千步骤的长期任务中保持稳定表现，这为AI代理的应用范围带来了革命性扩展。

图片来源／Anthropic

至于Claude Sonnet 4在保持高效率的同时，显著提升了程序代码撰写和推理能力，在平衡性能与实用性方面表现出色，适用于日常使用场景。

多家科技企业对Claude Opus 4给予了高度评价。程序代码编辑器公司Cursor说它在复杂程序代码库理解上有着飞跃式进步；网络开发平台Replit说它在跨不同文件之变更的精确度上，有了明显的改善；区块链开发公司Block表示，Claude Opus 4是首个能在程序代码编辑与调试过程中，实际提升程序代码品质的模型；日本电商巨头乐天（Rakuten）则借由一项长达7小时的开源重构任务，验证了该模型的能力，期间该模型完全独立运行并维持稳定表现。

而其实Claude Sonnet 4在代理场景的表现也不差，而且处理速度更快，因此，GitHub已宣布要在GitHub Copilot中的新程序代码撰写代理中，采用Claude Sonnet 4作为基础模型。

Pro、Max、Team和Enterprise计划都包含两款模型和延伸性思考功能，已通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上提供服务。在定价上，Claude Opus 4每百万token输入/输出价格为15/75美元，Claude Sonnet 4则是3/15美元，与上一代模型一致。

Anthropic发布Claude Opus 4与Claude Sonnet 4，前者号称是全球最强大的程序代码撰写模型

微信扫一扫：分享