Anthropic周一(11/24)正式发布最新模型Claude Opus 4.5,带来长脉络处理、计算机操作能力、全新effort参数与“无限聊天”等重大升级,同时将价格下修至每百万个Token输入5美元、输出25美元,仅为前一代Opus 4.1的1/3。

Opus 4.5在多项基准测试中达到业界顶尖,包括评测真实程序代码修复能力的SWE-Bench、测试终端机操作与程序环境任务的Terminal-bench、检验代理人工具调用效率的tau2-bench,以及评估高难度推理与知识深度的GPQA Diamond。其中最受关注的是,它成为首个在SWE-Bench Verified突破80%的模型,显示其程序代码修正能力已逼近甚至超越专业水准。

另一个象征性里程碑,是Opus 4.5首次在Anthropic的工程技术测验中胜过所有人类考生。这份可带回家写的测验专为性能工程应征者设计,要求在两小时内完成高难度题目,以评估技术能力与判断力。Opus 4.5通过平行推理聚合方式,在限时测验中拿下历来最高分;若不设时间限制并在Claude Code中使用,模型表现则与公司过去最佳人类候选人相当。

Opus 4.5也导入新的effort参数,让开发者可在推理深度、速度与成本间调整运算强度。中等effort时,Opus以远低于Sonnet 4.5的Token用量即可达到相同最佳成绩,节省76%的Token;最高effort则在表现再提升的情况下仍保留近5成的Token节省空间,有助企业依任务需求找出最有效率的运算策略。

为展现Opus在计算机操作上的能力,Anthropic同步发布可搭配使用的Chrome与Excel集成。Opus 4.5具备新的Screen Zoom Tool,可主动要求放大屏幕区域以检查按钮、字段或UI细节,并能在跨分页、跨窗口与大型文件间进行更精准的操作。Chrome扩展功能将此能力延伸至浏览器工作流程,而Excel集成则让模型能协助生成枢纽分析、图表与跨表格处理,展现其在计算机任务中的实际应用。

在长脉络处理上,Opus 4.5重新调整模型的记忆管理策略,加入“选择性脉络压缩”机制,能在脉络逼近上限时自动萃取并保留关键内容,不会中断对话或产生脉络错配,也不需用户自行摘要。该变更带来“无限聊天”功能,让跨天、跨文件、跨多轮的远程项目能够持续进行而不受脉络限制。

尽管Opus 4.5的价格大幅调降2/3,但相较竞争对手仍属偏高。例如OpenAI GPT-5.1每百万Token的输入费用为1.25美元、输出为10美元;Google Gemini 3 Pro则为输入2美元、输出12美元。