Lazy loaded image
技术分享
谷歌很强,但是Claude 4仍然是最强王者!
Words 2294Read Time 6 min
2025-7-10
2025-7-10
type
status
date
slug
summary
tags
category
icon
password
图片 (2880x1620)
图片 (2880x1620)
大家好,我是易安,AI超级个体,专注AI编程。
图片 (2717x1109)
图片 (2717x1109)
凌晨一点,我守在电脑前看Anthropic的直播。Anthropic在毫无预兆的情况下,直接扔出了王炸,本以为会是claude 3.8,结果是claude 4!作为一个每天和AI打交道的程序员,我立刻开始第一时间测试。这一测就是4个小时,直到天亮,我必须说:这次升级非常强,本来Gemini2.5 pro还能够着claude 3.7肩膀,这下随着新模型的出现,AI编程第一宝座,Claude当之无愧。

AI编程新王诞生

 
最近AI圈的更新速度已经不能用"卷"来形容了,简直是在打仗。OpenAI的o3发布没几天,谷歌IO大会,一堆重磅消息,Gemini Ultra独占鳌头,而DeepSeek-R1凭着性价比占领国内市场,放出消息最近要发布R2,现在Claude 4横空出世,直接掀翻了桌子。
 
在SWE-bench测试中,Claude Opus 4拿下72.5%的得分,Claude Sonnet 4更是达到72.7%!要知道,这可是在真实的GitHub问题上测试,不是那种竞赛题目。
图片 (1080x648)
图片 (1080x648)
我亲测了,从凌晨2点开始,它陪我完成了3个完整的项目,中间没有一次崩溃或者胡说八道。

权威评价

这不是我一个人在吹,看看业界大佬们怎么说:
  • Cursor团队:"Opus 4的编码能力已达业界顶尖水平,在理解复杂代码库方面取得了飞跃性进展。"
  • Replit:"在处理跨多个文件的复杂变更时,Opus 4的精度大大提升。"
  • Cognition:"Opus 4能成功处理先前模型未能完成的关键操作。"
  • Rakuten:"它通过了一项独立运行7小时的开源代码重构任务!"
这些可都是实打实在用AI做产品的公司,他们的评价比任何benchmark都有说服力。

实战测试:我让Claude 4做了什么

话不多说,直接上干货。我准备了四个递进难度的编程任务,看看Claude 4到底有多强。

测试一:天气卡片

 
Claude Opus4
图片 (2775x1591)
图片 (2775x1591)
Claude Sonnet4
图片 (2129x1497)
图片 (2129x1497)
 
视频效果

测试二:全栈应用开发

图片 (2787x1589)
图片 (2787x1589)
 
 

测试三:算法实现与可视化

图片 (1979x1503)
图片 (1979x1503)

测试四:复杂数据处理工具

图片 (2089x1499)
图片 (2089x1499)
 
 
 
等你测试完这三个案例,我来分享一些让我印象深刻的细节:
  1. 代码质量惊人:不是那种能跑就行的代码,而是真正production-ready的代码。注释详细,错误处理完善,甚至考虑了边缘情况。
  1. 理解能力爆表:我故意在提示词里埋了一些坑,比如"考虑后续扩展"这种模糊需求,它居然真的预留了接口!
  1. 审美在线:生成的UI不再是那种程序员审美了,配色、间距、动画都恰到好处。

不只是代码,还有Claude Code

这次Anthropic还全面推出了Claude Code,支持 VS Code 和 JetBrains 接入,这个真的要说下。想象一下:
在VS Code里直接调用Claude 4,它能看懂你的整个项目结构、自动修复bug,重构代码,甚至能帮你写测试用例!
我昨晚已经装好wsl在用了,效率提升不是一点半点。之前处理一个复杂的重构任务,平时至少要5小时,用Claude Code 几十分钟分钟搞定。

关于价格

最让人意外的是,这么强的能力提升,价格居然保持不变:
  • Opus 4:15美元/百万tokens(输入),75美元/百万tokens(输出)
  • Sonnet 4:3美元/百万tokens(输入),15美元/百万tokens(输出)
而且Sonnet 4还对免费用户开放!这波属实良心。

一个有趣的小测试

官方分享了一个好玩的测试:让Claude 4玩《宝可梦》,结果它不仅走出了新手村,还连续打败了三个道馆馆主,甚至学会了创建"导航指南"来记录游戏进度。
图片 (1079x607)
图片 (1079x607)
看似搞笑,实则说明了如果AI能在游戏中做长期规划、资源管理、策略制定,那在编程中处理复杂项目架构还不是小菜一碟?

写在最后

Anthropic公布的路线图:
  • 2024年:"Claude assists"(辅助阶段)
  • 2025年:"Claude collaborates"(协作阶段)
  • 2027年:"Claude pioneers"(开创阶段)
我们正处在第二阶段的开端。Claude 4已经能独立工作数小时,真正像一个初级程序员那样完成任务。
作为程序员,我的感受很复杂。一方面,有了Claude 4这样的助手,我的效率确实翻倍了;另一方面,AI的进化速度让我意识到,必须不断提升自己的不可替代性。
未来的程序员可能更像是"AI驾驶员"——我们负责方向和决策,AI负责执行和实现。掌握如何与AI协作,将成为每个程序员的必修课。
 
对了,顺便看了下cursor中的模型列表,已经支持Claude 4了,大家可以去体验一波。
图片 (1169x923)
图片 (1169x923)
 
上一篇
如何完全卸载claude code
下一篇
AI编程工具Jules,通过了,吊炸天!