谷歌很强，但是Claude 4仍然是最强王者！

type

status

date

slug

summary

AI编程新王诞生

最近AI圈的更新速度已经不能用"卷"来形容了，简直是在打仗。OpenAI的o3发布没几天，谷歌IO大会，一堆重磅消息，Gemini Ultra独占鳌头，而DeepSeek-R1凭着性价比占领国内市场，放出消息最近要发布R2，现在Claude 4横空出世，直接掀翻了桌子。

在SWE-bench测试中，Claude Opus 4拿下72.5%的得分，Claude Sonnet 4更是达到72.7%！要知道，这可是在真实的GitHub问题上测试，不是那种竞赛题目。

我亲测了，从凌晨2点开始，它陪我完成了3个完整的项目，中间没有一次崩溃或者胡说八道。

权威评价

这不是我一个人在吹，看看业界大佬们怎么说：

Cursor团队："Opus 4的编码能力已达业界顶尖水平，在理解复杂代码库方面取得了飞跃性进展。"

Replit："在处理跨多个文件的复杂变更时，Opus 4的精度大大提升。"

Cognition："Opus 4能成功处理先前模型未能完成的关键操作。"

Rakuten："它通过了一项独立运行7小时的开源代码重构任务！"

这些可都是实打实在用AI做产品的公司，他们的评价比任何benchmark都有说服力。

实战测试：我让Claude 4做了什么

话不多说，直接上干货。我准备了四个递进难度的编程任务，看看Claude 4到底有多强。

测试一：天气卡片

Claude Opus4

Claude Sonnet4

视频效果

测试二：全栈应用开发

测试三：算法实现与可视化

测试四：复杂数据处理工具

等你测试完这三个案例，我来分享一些让我印象深刻的细节：

代码质量惊人：不是那种能跑就行的代码，而是真正production-ready的代码。注释详细，错误处理完善，甚至考虑了边缘情况。

理解能力爆表：我故意在提示词里埋了一些坑，比如"考虑后续扩展"这种模糊需求，它居然真的预留了接口！

审美在线：生成的UI不再是那种程序员审美了，配色、间距、动画都恰到好处。

不只是代码，还有Claude Code

这次Anthropic还全面推出了Claude Code，支持 VS Code 和 JetBrains 接入，这个真的要说下。想象一下：

在VS Code里直接调用Claude 4，它能看懂你的整个项目结构、自动修复bug，重构代码，甚至能帮你写测试用例！

我昨晚已经装好wsl在用了，效率提升不是一点半点。之前处理一个复杂的重构任务，平时至少要5小时，用Claude Code 几十分钟分钟搞定。

关于价格

最让人意外的是，这么强的能力提升，价格居然保持不变：

Opus 4：15美元/百万tokens（输入），75美元/百万tokens（输出）

Sonnet 4：3美元/百万tokens（输入），15美元/百万tokens（输出）

而且Sonnet 4还对免费用户开放！这波属实良心。

一个有趣的小测试

官方分享了一个好玩的测试：让Claude 4玩《宝可梦》，结果它不仅走出了新手村，还连续打败了三个道馆馆主，甚至学会了创建"导航指南"来记录游戏进度。

看似搞笑，实则说明了如果AI能在游戏中做长期规划、资源管理、策略制定，那在编程中处理复杂项目架构还不是小菜一碟？

写在最后

Anthropic公布的路线图：

2024年："Claude assists"（辅助阶段）

2025年："Claude collaborates"（协作阶段）

2027年："Claude pioneers"（开创阶段）

我们正处在第二阶段的开端。Claude 4已经能独立工作数小时，真正像一个初级程序员那样完成任务。

作为程序员，我的感受很复杂。一方面，有了Claude 4这样的助手，我的效率确实翻倍了；另一方面，AI的进化速度让我意识到，必须不断提升自己的不可替代性。

未来的程序员可能更像是"AI驾驶员"——我们负责方向和决策，AI负责执行和实现。掌握如何与AI协作，将成为每个程序员的必修课。

对了，顺便看了下cursor中的模型列表，已经支持Claude 4了，大家可以去体验一波。