Lazy loaded image
技术分享
GPT-4.5终于来了!
Words 2142Read Time 6 min
2025-7-10
2025-7-10
type
status
date
slug
summary
tags
category
icon
password
大家好,我是易安。
图片 (1080x462)
图片 (1080x462)
今天凌晨4点,万众期待的GPT-4.5终于姗姗来迟,说实话,这次发布会"朴实无华"得有点惨淡,连奥特曼都没来,就一个小房间里几个研究员在讲,与当年GPT-4那场惊艳全球的发布会相比,差了不止一个档次啊!

一、等了快两年,就给这?

图片 (691x385)
图片 (691x385)
还记得2023年3月15日GPT-4发布时那种惊艳感吗?布罗克曼在演示中随手画个网站草图,拍照给GPT-4,前端代码立马就出来了,当时真的是"卧槽,太强了"的统一评价。
而今天,将近整整两年过去了,在我们经历了多模态的4o和推理怪兽o1之后,这个号称基座模型升级的GPT-4.5,给我的第一感觉却是:
就这?这就是我们等了两年的大升级?

二、GPT-4.5:花里胡哨的数据和奇葩的基准测试

按照惯例,我们先看看官方吹出来的那些数据:
图片 (1044x488)
图片 (1044x488)
在SimpleQA测试中:
  • 准确率:62.5%(据说是最高的,比Grok 3高了近20%)
  • 幻觉率:仅37.1%(也是最低的,o3-mini高达80.3%)
但有个很诡异的事:在AIME 2024数学测试中,GPT-4.5得分36.7%,而GPT-4o才9.3%,但o3-mini(high)却高达87.3%!
图片 (1080x420)
图片 (1080x420)
更离谱的是,在o1发布时,同样的测试中GPT-4o还能得13.4%呢,这次突然变成9.3%了?莫非是为了衬托4.5的"进步",把4o的分数还调低了?这操作也太迷了吧?

三、情商提升:真·会察言观色

说回正事,GPT-4.5最大的亮点是啥?一个词:情商高
当你跟它说"我考试没过,心情很糟"时:
  • GPT-4.5回复:"唉,真是太遗憾了。考试没过确实很打击人,也会让人特别沮丧,但你要记住,这只是一次考试而已,不能代表你这个人,更不能说明你的实力。要不要说说具体什么情况?或者咱们聊点别的转换心情?你想怎样都行,我都在这里陪你。"
  • 相比之下,GPT-4o和o3-mini的回答就显得机械且"理工男"气息浓厚,各种建议倒是一堆,就是缺少人味儿。
再比如当你问"朋友总是爽约,我想发短信表达愤怒但又不想绝交":
  • GPT-4.5能更好地理解你的情绪和真实需求
  • GPT-4o则一股子"没脑子没情商的人机味"
但吐槽点来了:有用户测试发现,当问GPT-4.5一些简单的逻辑问题时,它反而懵了,一直在理解情绪而忽略了问题本身,测了5次都没对。这是高情商把智商干没了?

四、世界知识:终于会说"我不知道"了

OpenAI展示了一个有趣的例子,问各代模型"世界第一门语言是什么":
  • GPT-1:重复问题,无限循环(典型AI痴呆)
图片 (733x570)
图片 (733x570)
  • GPT-2:解释什么是"语言",但不回答问题
  • GPT-3.5:给出楔形文字为最早的书面语言,但口语无法确定
  • GPT-4:详细但不确定的回答
图片 (735x568)
图片 (735x568)
  • GPT-4.5:终于能诚实地说"我们无法确切知道第一种语言是什么,这是一个未解之谜"
图片 (734x573)
图片 (734x573)
这种诚实和对未知的坦然承认,是真正智能的表现

五、价格:这是要上天啊!

现在到了最离谱的部分——价格!当我第一眼看到这个数字时,真的惊掉下巴:
  • 每百万输入tokens:75美元
  • 每百万输出tokens:150美元
而对比:
  • Claude 3.7:输入3美元/百万tokens,输出15美元/百万tokens
  • DeepSeek v3:输入0.27美元/百万tokens,输出1.1美元/百万tokens,这两天还上线了限时优惠套餐,这像不像流量不够时运营商提供的闲时加油包,哈哈。
图片 (1080x518)
图片 (1080x518)
简单算一下:GPT-4.5的输入价格是Claude的25倍,是DeepSeek的280倍!输出价格是Claude的10倍,是DeepSeek的150倍!
我真想问问OpenAI:你们这底气是谁给的?梁静茹吗?

六、实际体验

目前GPT-4.5已向200美元/月的Pro会员开放,由于之前的sora给我的教训,这次没记着充pro会员,看了很多博主的第一时间上手体验。说实话,感觉相当微妙:
  1. 功能退步:支持识图、搜索、画布,但4o的语音、视频、共享屏幕功能全都没了
  1. 奇怪BUG:问一些史实性问题时,明明没开搜索,却强制开搜索回答
  1. 龟速响应:慢到让人想吐,感觉回到了GPT-4的时代,一个字一个字往外蹦
  1. 写作能力:几个常用写作case,结果竟不如迭代后的GPT-4o,真的稀碎

七、对比其他模型

根据官方和第三方测试,在代码与推理方面:
  • 编码测试:比不过Claude 3.7 Sonnet
  • 数学与推理:远不如o3-mini
OpenAI研究员也坦言,GPT-4.5并不是一个专注推理的模型,它走的是另一条路——更实用、更像人的交互体验。

总结:期望越大,失望越大

坦率地说,对OpenAI的期待有多大,失望就有多大。
在当前AI竞争日益激烈的环境下,OpenAI这次的表现只能用"疲态尽显"来形容。奥特曼已经表示,这可能是他们最后一个纯基座模型了,未来的GPT-5将是整合了o3的混合模型。
AI就像一场马拉松,你但凡慢一点或者停下,身边的竞争者就会呼啸而过。要真有实力和诚意,用户自然买单;要是只会营销和摆谱,必定会被淘汰。
作为AI内容创作者,我们需要保持开放的心态,使用最适合自己需求的工具,而不是盲目追随大厂光环。对于日常使用,我依然推荐更具性价比的选择,除非你真的需要那"超高情商"且不在乎成本。
你们觉得GPT-4.5值得尝试吗?欢迎在评论区留言分享你的看法!记得点赞关注,我会持续为大家带来AI工具领域的第一手体验和分析。

最后的话:AI红利才刚开始,你准备好了吗?

看完GPT-4.5的分析,不禁让我思考:即使是巨头也会有疲软的时候,但AI这个风口却一直在加速!
2025年,AI将渗透到我们生活和工作的方方面面。那些已经掌握AI技能的人,正在悄悄地改变自己的命运,而那些还在犹豫的人,只能眼睁睁看着机会溜走。
你是想做风口中的猪,还是想做驾驭风口的鹰?
23年我加入了国内最大的AI付费社群【AI破局俱乐部】,这2年里我学到的不仅是技能,更是突破认知和思维方式、人脉资源。通过学习AI提示词、AI写作、AI数字人,AI编程,AIP打造等等技能和变现手段,我的工作效率提升了300%,公众号涨粉15万+,更重要的是打开了全新的收入来源,23年就通过AI赚回100倍门票钱,之后是不断拓宽人生边界,持续打造第二曲线。
上一篇
DeepSeek开源周收官之作:3FS让AI数据处理迈入"高铁时代"
下一篇
DeepSeek开源第四天,DeepSeek开源神器硬刚英伟达,一行代码提速2倍!