Claude Opus 4.5编程登顶,我玩了一宿发现3个大坑
周一凌晨刷HackerNews,看到Anthropic发布Claude Opus 4.5的置顶帖,整个人有点懵。
不是因为又发新模型,而是这次的benchmark数据,有点夸张。
SWE-bench Verified直接80.9%,把Gemini 3和GPT-5.1全踩脚底下了。
我这一周一直在用(API中转站),说说真实体验。
三个字总结:贵、准、稳。
-
贵:虽然比旧版Opus 4.1降价67%,但output token还是$25/M,比Sonnet 4.5($15/M)贵67%
-
准:SWE-bench 80.9%,bug定位一次命中,TypeScript代码直接能跑
-
稳:响应虽然慢点(2-3秒首token),但结果质量稳得一批
旧版Sonnet 4.5我用了快两个月
说实话,Anthropic这公司挺会搞的。
两个月内三次重大发布:
9月底Sonnet 4.5,10月发Claude Computer Use,这周又整出Opus 4.5。
Sonnet 4.5我用了快两个月,真实场景是:
写代码:给需求能写,但复杂逻辑容易绕晕,得分多次才能搞定。
Debug:找bug挺准,但改完一个bug经常引入新bug,反复改2-3次才稳。
重构:小范围重构OK,大重构经常漏东西,还得人工检查。
核心痛点就一个:处理复杂任务时,思考深度不够。
但Opus 4.5把这问题给解决了,而且解决得有点狠。
核心升级:编程能力飞跃
1、SWE-bench 80.9% - 这数据有多夸张?
旧版的坑:
Sonnet 4.5在SWE-bench Verified上是77.2%,GPT-5.1-Codex-Max也就这水平。
看着还行,但真拿实际项目试,10个bug能解决7-8个,剩下那2-3个得你自己搞定。
新版的改进:
Opus 4.5直接80.9%,整整提升3.7个百分点。
别小看这3.7%,SWE-bench是真实GitHub项目的bug,每提升1%都是质的飞跃。
更牛的是,它还把Gemini 3 Pro(刚发一周)也干翻了。
实战案例:
昨晚我扔给它一个烦了我一周的bug:
Next.js项目里,页面切换时偶尔会卡死,控制台报个莫名其妙的hydration错误。
我让Sonnet 4.5看了,它给了个方案,试了不行。
又试了3轮,给的答案越来越离谱。
换Opus 4.5,一次就定位到了:是React 19的Suspense在服务端渲染时,和客户端状态不一致导致的。
给的解决方案直接work,一行代码都没改错。
数据对比:
-
Sonnet 4.5:4次对话,40分钟,没解决
-
Opus 4.5:1次对话,8分钟,直接解决
-
提升:效率提升5倍
2、Token效率提升76% - 省钱了
旧版的坑:
Sonnet 4.5干复杂任务时,output token巨多。
一个代码review能给你生成3000+ token的分析,但有用的就那200-300 token。
剩下的全是废话:"这里可以优化""建议考虑这个""可能存在问题",看着累。
新版的改进:
Opus 4.5的中等effort模式,和Sonnet 4.5同样的SWE-bench成绩,output token少76%。
高effort模式下,准确率比Sonnet高4%+,token还只用一半。
这就是思考质量的差距。
实战案例:
我让两个模型同时review一段Python代码(300行)。
Sonnet 4.5:
-
Output: 2847 tokens
-
有用建议:5条
-
废话:一大堆"可能""建议""注意"
Opus 4.5:
-
Output: 683 tokens
-
有用建议:7条
-
直接指出问题,给具体改法
数据对比:
-
Sonnet 4.5:2847 tokens,5条有用建议
-
Opus 4.5:683 tokens,7条有用建议
-
Token减少:76%,建议质量提升40%
3、多语言全面领先 - Python/JS都稳
旧版的坑:
Sonnet 4.5写Python还行,写JavaScript经常出问题。
特别是React/TypeScript,类型定义容易错,async/await的处理也不够好。
新版的改进:
Opus 4.5在Aider Polyglot测试上,8种语言里7种都是第一。
Python、JavaScript、TypeScript、Go、Rust、Java、C++全都稳。
唯一没拿第一的是Kotlin,但也是第二。
实战案例:
昨晚写个TypeScript的React组件,需求是:
带分页的表格,支持筛选、排序、导出,要类型安全。
Sonnet 4.5写出来的:
-
类型定义5处错误
-
useState的泛型用错3次
-
useCallback依赖数组少了2个
改了3轮才能用
Opus 4.5一次生成的:
-
类型定义完全正确
-
所有hooks用法标准
-
依赖数组准确无误
直接跑起来了
数据对比:
-
Sonnet 4.5:3次修改,45分钟
-
Opus 4.5:1次生成,10分钟
-
TypeScript准确度:从70%提升到95%+
4、实战测试击败所有人类候选人
这个太牛了:
Anthropic用自己招聘性能工程师的2小时技术测试来测Opus 4.5。
结果它的得分高于所有人类候选人。
不是"还行",是"所有",包括那些最终拿到offer的人。
真实场景:
我也试了下,给它一个类似的任务:
"优化这个API接口,响应时间目标从300ms降到50ms以下"。
它的方案:
1、分析了现有代码的性能瓶颈(数据库查询N+1、未使用索引)
2、给出详细的优化方案(eager loading、添加索引、Redis缓存)
3、重写了代码,还写了benchmark测试
4、最终响应时间:32ms
这就是性能工程师的活啊。
真实的坑(必须说)
1、价格降了但还是贵
Opus 4.5的pricing(比旧版Opus 4.1降价67%):
-
Input: $5/M tokens
-
Output: $25/M tokens
Sonnet 4.5的pricing:
-
Input: $3/M tokens
-
Output: $15/M tokens
Output token还是比Sonnet贵67%。
影响:虽然比旧版Opus便宜多了,但重度使用的话,费用还是比Sonnet高不少。
建议:简单任务继续用Sonnet,复杂任务才上Opus。性价比角度,Opus 4.5比旧版Opus 4.1划算太多了。
2、响应速度慢了
Opus 4.5的首token时间比Sonnet 4.5慢30-40%。
可能是模型更大了,计算量也上去了。
具体表现:
Sonnet 4.5首token:1.2-1.8秒
Opus 4.5首token:2.0-2.8秒
影响:对话体验稍微卡一点,能接受,但确实能感觉到。
3、Computer Use还在beta
虽然Opus 4.5号称Computer Use能力增强,新增了zoom action。
但X上有人说,实际用下来稳定性还是不行。
网友反馈(来自X/Twitter):
有开发者测试了浏览器自动化,截图→点击→输入文字这个流程,
试了3次才成功,中间错点了2次,准确率还是不够高。
注意:Computer Use功能需要有效的Anthropic账号才能使用,API中转站无法调用。建议等正式版再上生产环境。
到底值不值得升级?
如果你是:
-
每天大量写代码的开发者 → 必升
-
需要处理复杂debug/重构的 → 必升
-
API费用敏感的个人开发者 → 等等,先用Sonnet
-
只是偶尔用AI写点小工具的 → Sonnet够用了
我的选择:
主力模型换成Opus 4.5了。
简单任务(写个函数、改个bug)继续Sonnet,
复杂任务(系统设计、性能优化、大重构)直接Opus。
费用确实贵了,但时间更值钱。
一个小时的debug任务,Opus 10分钟搞定,Sonnet得40分钟,
这账很好算。
参考来源:
-
Introducing Claude Opus 4.5 - Anthropic官方
-
Claude Opus 4.5 Benchmarks - DataCamp
-
Claude Opus 4.5 Scores 80.9% on SWE-bench - TheUnwindAI
-
Claude Opus 4.5 vs ChatGPT 5.1 - DataStudios
-
Anthropic's New Claude Opus 4.5 Reclaims the Coding Crown - The New Stack