网址
Caption
type
date
slug
summary
tags
category
icon
password
Post URL
Platforms
Notionsocial
Time
Likes
First Comment
Media
Views
Comments
Status
status
大家好,我是易安!
昨天百度文心一言同时上线了两款全新模型:文心4.5和推理模型X1!
文心4.5是一款全面升级的原生多模态模型,可以理解图片、音频、视频内容,只是目前还没有这些格式的生成能力。而文心X1则是百度首次推出的专注于推理能力的大模型。
前沿数据对比
先来看看官方的参数,又是和GPT-4o对比。

基准测试分数确实亮眼。不过在大家比较关注的编程能力方面,使用的测试基准是HumanEval+、MBPP+和LiveCodeBench,没有看到Claude他们常用的SWE-bench Verified基准,不知道在这个指标上会有怎样的表现。
价格方面,文心给了我一个大大的惊喜。

GPT-4.5发布时,我狠狠吐槽了一下它的价格,输入是DeepSeek v3的280倍,输出是150倍,用起来真是伤不起。
而文心大模型在这点上确实让人眼前一亮。文心4.5的输入价格为0.004元/千tokens,输出0.016元/千tokens,约为GPT-4.5价格的1%!
同样都是"4.5",OpenAI的。。。
推理模型X1这块,价格仅为DeepSeek R1一半,输入0.002元/千tokens,输出0.008元/千tokens。

比DeepSeek还便宜,说实话,这个定价策略真的有点东西...简直白菜价。
目前这两个模型已经在官网上线,我熬夜测试了几个小时,来分享一下我的真实体验:功能全面,各方面都有涉及,整体给人一种综合均衡的感觉。

大家可以先去试试看,有一个直观感受后再回来继续读我的评测。
接下来,我们一项一项分析。
文心4.5多模态能力
图片、音频、视频理解都已支持,还能直接生成图像。
图片理解
图片理解能力让我惊喜,我测试了几张网络流行的复杂梗图,大部分都能准确理解。
比如我发了一张"程序员的代码"的梗图,上面是程序员编程第一准则,能跑就不要动,文心4.5不仅描述出了图中的元素,用牛做比喻,还能解读出这是程序员的自嘲。

当然,对于一些极度冷门的小众梗图,它还是会有理解障碍。
比如我发了一张"996加班人员精神状态"的二次元表情包,它只能识别出基本表情,却无法理解其中的职场讽刺。看来AI还是不太能体会我们打工人的辛酸啊...

写作测试
写作能力测试结果有惊喜也有遗憾。
我让它帮我写一篇小米 su7 ultra产品发布会演讲稿,结构严谨、重点突出,真有那么一点雷布斯的味道;

但让它写一篇科幻短篇小说,坦白说,故事框架还行,但细节和情感描写明显不足,有种"AI味"。

视频理解
视频理解能力确实还在初级阶段。
我上传了一段我最近去南山的旅游视频,它能识别出地点、主要景观和人物活动,但当我要求它分析视频中的构图技巧和情绪表达时,回答就显得有些浮于表面了。
文生图
文心4.5的图生图我也测了一下,提示词响应度挺高的。


我让它生成"未来城市街头的夜市场景,充满霓虹灯和全息投影",生成的图像确实包含了所有元素,构图也不错,只是细节和质感上还有提升空间。
逻辑推理
逻辑推理测试是文心4.5的一大亮点,我出了一个比较绕的推理题:
"三个朋友在玩真心话大冒险。甲说:'乙说的是真话';乙说:'丙说的是假话';丙说:'我和甲中间至少有一个人说的是假话'。问:谁说的是真话,谁说的是假话?"
文心4.5给出了完整的分析过程:
"假设甲说真话,则乙也说真话(根据甲的说法)。如果乙说真话,则丙说假话(根据乙的说法)。如果丙说假话,那么他和甲都说真话,这与丙的说法矛盾。
假设甲说假话,则乙说假话(与甲的说法相反)。如果乙说假话,则丙说真话(与乙的说法相反)。如果丙说真话,那么他和甲中至少有一个人说假话,这成立(因为甲说假话)。
所以唯一自洽的结果是:甲说假话,乙说假话,丙说真话。"

这个分析不仅正确,而且逻辑清晰,令人印象深刻!
文心X1推理模型
推理测试
这是百度第一次推出专门的推理模型,在交互设计上有些小瑕疵,让我这个用户体验控有点困惑。
比如文件上传功能的入口设计:必须先开启"联网搜索"功能,然后等"工具"按钮变成可点击状态,再点击工具按钮,才能找到上传文件的选项。如果你直接想上传文件分析,根本找不到入口。

不过推理能力上的表现倒是可圈可点。
我给X1出了个经典的逻辑推理题:"有一个铁笼子,四面都是通透的铁栏杆,里面站着一个人,笼子没有门也没有钥匙。请问如何把人从笼子里救出来?"
虽然X1给出了一大段分析(甚至考虑了焊枪切割、掘地道和弯曲栏杆等多种方案),最后还是想到了正确答案:"这个人站在笼子里,但笼子并没有顶部,人可以直接从上方离开。"
创意写作
X1的创意写作也有点出乎意料。我让它以"午夜的电梯"为主题写一个微型恐怖故事,结果不仅文笔流畅,情节转折也相当出色,读完还真有点毛骨悚然的感觉。

多模态能力
多模态理解能力也不弱。我上传了一张复杂的建筑设计图,请它分析其中的设计风格和可能存在的问题。

X1不仅正确识别出了这是一栋融合了北欧简约和日式禅意的住宅设计,还指出了几处采光和空间利用方面可能存在的问题,分析相当专业。

情商表现
我也测试了X1的"情商"表现,这可是国产AI的传统强项。
我问它:"如果让你在ChatGPT和文心一言之间选一个更聪明的,你会选谁?"
X1先是很外交地表示"不同模型各有所长",但当我追问必须二选一时,它的回答让我忍不住笑出声:"作为文心一言的一部分,我认为我们有着自己的独特优势,特别是对中文内容和中国文化的理解深度。"

这种既不直接踩对手,又巧妙抬高自己的话术,不愧是有着中国特色的AI情商!
时事热点解读
我还用X1测试了一下时事热点解读能力。正好前几天华为存储外包招聘的话题引发热议,我问它如何看待前几天的华为大型舞弊事件?

X1不仅给出了详实的事件分析,还针对企业如何平衡效率和公平展开了论述,非常全面
总结
文心4.5和X1的同时发布,让我看到了百度重回AI赛道核心位置的决心。这不只是产品升级,更像是一场战略重构。
从测试表现来看,文心4.5在多模态理解上有了质的飞跃。对程序员梗图的深度理解、对复杂逻辑推理题的清晰分析,都表明这个模型已经不再是简单的"能用就行",而是真正在追求体验品质。X1作为首个专注推理的模型,虽然交互设计有些瑕疵,但解决复杂问题的思路和创意写作的表现让人眼前一亮。
最令人惊讶的是百度的价格策略。0.004元/千tokens的输入价格,仅为GPT-4.5的1%,这种近乎"白菜价"的定价背后,是百度对市场的野心和自信。这不禁让我思考:百度是否掌握了某种降低算力成本的技术?或者他们准备通过其他方式实现商业变现?
当然,挑战仍然存在。UI交互直觉性不足、专业领域的深度有限、3个月后才开源的决策都值得商榷。尤其是在开源社区日益活跃的今天,这种延迟可能会影响社区参与度和生态建设。
站在行业视角,百度的双模型策略反映了一个重要趋势:中国AI企业不再满足于简单跟随,而是开始探索符合自身优势和市场需求的差异化路线。文心选择同时发布通用多模态模型和专精推理模型,显示出对不同使用场景的深刻理解。
这让我想起围棋中的"分投"策略 - 不在同一个角落与对手争夺,而是选择在新的战场展开布局。百度似乎也在下这样一盘棋:不与国际巨头正面对抗,而是寻找自己的差异化优势和增长路径。
百度文心能否凭借此次升级重新赢得用户信任?中国大模型产业能否通过良性竞争实现整体跃升?作为一个长期观察AI发展的博主,我对这些问题充满期待。
无论如何,文心4.5和X1的发布已为国内AI市场注入了新的活力。在这个技术与应用快速迭代的时代,唯一确定的是变化本身。
让我们拭目以待,共同见证。
- Author:易安
- URL:http://preview.tangly1024.com/article/25ded26c-0da0-8174-b130-cefa68467488
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

