Lazy loaded image
技术分享
谷歌很强,但是Claude 4仍然是最强王者!
Words 2250Read Time 6 min
2025-8-29
2025-8-29
网址
Caption
type
date
slug
summary
tags
category
icon
password
Post URL
Platforms
Notionsocial
Time
Likes
First Comment
Media
Views
Comments
Status
status
图片 (2880x1620)
图片 (2880x1620)
大家好,我是易安,AI超级个体,专注AI编程。
图片 (2717x1109)
图片 (2717x1109)
凌晨一点,我守在电脑前看Anthropic的直播。Anthropic在毫无预兆的情况下,直接扔出了王炸,本以为会是claude 3.8,结果是claude 4!作为一个每天和AI打交道的程序员,我立刻开始第一时间测试。这一测就是4个小时,直到天亮,我必须说:这次升级非常强,本来Gemini2.5 pro还能够着claude 3.7肩膀,这下随着新模型的出现,AI编程第一宝座,Claude当之无愧。

AI编程新王诞生

 
最近AI圈的更新速度已经不能用"卷"来形容了,简直是在打仗。OpenAI的o3发布没几天,谷歌IO大会,一堆重磅消息,Gemini Ultra独占鳌头,而DeepSeek-R1凭着性价比占领国内市场,放出消息最近要发布R2,现在Claude 4横空出世,直接掀翻了桌子。
 
在SWE-bench测试中,Claude Opus 4拿下72.5%的得分,Claude Sonnet 4更是达到72.7%!要知道,这可是在真实的GitHub问题上测试,不是那种竞赛题目。
图片 (1080x648)
图片 (1080x648)
我亲测了,从凌晨2点开始,它陪我完成了3个完整的项目,中间没有一次崩溃或者胡说八道。

权威评价

这不是我一个人在吹,看看业界大佬们怎么说:
  • Cursor团队:"Opus 4的编码能力已达业界顶尖水平,在理解复杂代码库方面取得了飞跃性进展。"
  • Replit:"在处理跨多个文件的复杂变更时,Opus 4的精度大大提升。"
  • Cognition:"Opus 4能成功处理先前模型未能完成的关键操作。"
  • Rakuten:"它通过了一项独立运行7小时的开源代码重构任务!"
这些可都是实打实在用AI做产品的公司,他们的评价比任何benchmark都有说服力。

实战测试:我让Claude 4做了什么

话不多说,直接上干货。我准备了四个递进难度的编程任务,看看Claude 4到底有多强。

测试一:天气卡片

 
Claude Opus4
图片 (2775x1591)
图片 (2775x1591)
Claude Sonnet4
图片 (2129x1497)
图片 (2129x1497)
 
视频效果

测试二:全栈应用开发

图片 (2787x1589)
图片 (2787x1589)
 
 

测试三:算法实现与可视化

图片 (1979x1503)
图片 (1979x1503)

测试四:复杂数据处理工具

图片 (2089x1499)
图片 (2089x1499)
 
 
 
等你测试完这三个案例,我来分享一些让我印象深刻的细节:
  1. 代码质量惊人:不是那种能跑就行的代码,而是真正production-ready的代码。注释详细,错误处理完善,甚至考虑了边缘情况。
  1. 理解能力爆表:我故意在提示词里埋了一些坑,比如"考虑后续扩展"这种模糊需求,它居然真的预留了接口!
  1. 审美在线:生成的UI不再是那种程序员审美了,配色、间距、动画都恰到好处。

不只是代码,还有Claude Code

这次Anthropic还全面推出了Claude Code,支持 VS Code 和 JetBrains 接入,这个真的要说下。想象一下:
在VS Code里直接调用Claude 4,它能看懂你的整个项目结构、自动修复bug,重构代码,甚至能帮你写测试用例!
我昨晚已经装好wsl在用了,效率提升不是一点半点。之前处理一个复杂的重构任务,平时至少要5小时,用Claude Code 几十分钟分钟搞定。

关于价格

最让人意外的是,这么强的能力提升,价格居然保持不变:
  • Opus 4:15美元/百万tokens(输入),75美元/百万tokens(输出)
  • Sonnet 4:3美元/百万tokens(输入),15美元/百万tokens(输出)
而且Sonnet 4还对免费用户开放!这波属实良心。

一个有趣的小测试

官方分享了一个好玩的测试:让Claude 4玩《宝可梦》,结果它不仅走出了新手村,还连续打败了三个道馆馆主,甚至学会了创建"导航指南"来记录游戏进度。
图片 (1079x607)
图片 (1079x607)
看似搞笑,实则说明了如果AI能在游戏中做长期规划、资源管理、策略制定,那在编程中处理复杂项目架构还不是小菜一碟?

写在最后

Anthropic公布的路线图:
  • 2024年:"Claude assists"(辅助阶段)
  • 2025年:"Claude collaborates"(协作阶段)
  • 2027年:"Claude pioneers"(开创阶段)
我们正处在第二阶段的开端。Claude 4已经能独立工作数小时,真正像一个初级程序员那样完成任务。
作为程序员,我的感受很复杂。一方面,有了Claude 4这样的助手,我的效率确实翻倍了;另一方面,AI的进化速度让我意识到,必须不断提升自己的不可替代性。
未来的程序员可能更像是"AI驾驶员"——我们负责方向和决策,AI负责执行和实现。掌握如何与AI协作,将成为每个程序员的必修课。
 
对了,顺便看了下cursor中的模型列表,已经支持Claude 4了,大家可以去体验一波。
图片 (1169x923)
图片 (1169x923)
 
上一篇
Trae开始收费了,Cursor该慌了!
下一篇
速度白嫖,cursor上线bug,三个月白嫖cursor