Lazy loaded image
技术分享
GPT-4o生图能力正式上线:一句话的事,把AI绘图生态颠覆了!
Words 1580Read Time 4 min
2025-7-11
2025-7-11
type
status
date
slug
summary
tags
category
icon
password
大家好,我是易安!
 
图片 (512x512)
图片 (512x512)
 
昨晚,当我们都在关注DeepSeek V3小版本更新和阿里通义千问开源新模型时,OpenAI却在深夜悄悄放了个大招。
毫无预兆地,GPT-4o的原生图像生成能力终于全量开放了!
 
从Plus、Pro、Team用户到免费用户,所有人都能体验这项革命性的功能。
 
多少AI绘图工具,可能要颤抖了。
 

这和DALL E 3有何不同?

图片 (1024x1024)
图片 (1024x1024)
 
你可能想问:GPT-4o的图像生成和之前的DALL·E 3有什么不同?
 
关键区别在于:这不是简单的模型串联,而是一个真正的端到端多模态模型。
 
在OpenAI看来,图像生成本应是语言模型的核心能力。实际上,早在2024年5月首次发布GPT-4o时,官方就提到这是个原生多模态模型,只是当时图像生成能力被"暂时搁置"了。如今,这个被鸽了将近一年的功能终于来了,而且效果惊艳。
 
我连夜进行了测试,从简单的场景到复杂的艺术风格转换,GPT-4o展现出了令人窒息的图像理解和生成能力。

超乎想象的能力边界

 
先来欣赏几组我实测的例子:
图片 (1024x1024)
图片 (1024x1024)
图片 (1024x1024)
图片 (1024x1024)
 
看到了吗?从最初的抹茶拿铁到梵高《星空》风格的转换,再到咖啡馆环境的扩展,加入人物,季节变化,最后甚至到超现实主义的融合——GPT-4o几乎没有失手过。
 
这项能力的亮点主要体现在以下几个方面:
 

文本精准渲染

 
不同于其他生图模型对文本的模糊处理,GPT-4o能将文字准确地渲染到图像中,这对于制作菜单、海报、邀请函等实用型图像至关重要。
 

多轮对话修改

 
图片 (1777x772)
图片 (1777x772)
图片 (1750x886)
图片 (1750x886)
最令人震撼的是,你可以通过自然对话持续修改已生成的图像。这不是简单的图像编辑,而是在保持视觉一致性的前提下,通过语言理解进行深度调整。我在测试中,从原始抹茶图开始,一步步引导GPT-4o创造了一个完整的视觉叙事。
图片 (1641x921)
图片 (1641x921)
图片 (1546x768)
图片 (1546x768)
图片 (1772x812)
图片 (1772x812)

指令精准执行

 
GPT-4o的指令跟随能力堪称业界顶尖。据OpenAI介绍,其他系统在处理5-8个对象时就会遇到困难,而GPT-4o能同时处理10-20个不同对象,并精确保持它们与特性的绑定关系。
图片 (1024x1024)
图片 (1024x1024)
 

风格精准转换

 
图片 (1622x921)
图片 (1622x921)
 
无论是梵高的漩涡笔触,还是中国传统水墨画风格,甚至是两种风格的跨文化融合,GPT-4o都能精准捕捉并重现。这种能力让AI创作从"仿造"走向了"理解",为创意工作者提供了无限可能。
 

对比体验:ChatGPT vs Sora网站

 
目前,有两个渠道可以使用GPT-4o的图像生成能力:ChatGPT和Sora网站。
 
在ChatGPT中,当画图选项不再显示"DALL·E"时,说明已经切换到了GPT-4o的生图能力。这里的优势是可以进行连续多轮对话修改,但缺点是即使是Pro会员也会受到使用频率限制。
 
而在Sora网站上使用时,速度极快,可一次性生成多张图片,且基本无限制使用。但生成后的图片无法进行多轮对话修改。
 
 

美中不足之处

 
尽管GPT-4o的图像生成能力让人惊叹,但它并非完美无缺。OpenAI也坦诚了当前存在的一些局限性:
  1. 长图裁剪问题,特别是底部容易被过度裁切
  1. 低上下文提示时可能出现幻觉
  1. 处理超过20个不同概念的复杂场景时准确性下降
  1. 非拉丁语系文字渲染存在困难
  1. 编辑精度问题,修改特定部分时可能导致其他部分意外变化
  1. 小尺寸文本密集信息呈现效果不佳
 
图片 (1628x866)
图片 (1628x866)
 

这意味着什么?

 
GPT-4o的图像生成能力不仅仅是一项新功能,它很可能重塑整个AI绘图工具生态。
 
当年,Midjourney让世界见识了AI画师的潜能;Stable Diffusion则将开源火炬交到了社区手中;Gemini展示了多模态的雏形,却始终差了火候。
 
而今天,GPT-4o用几乎成熟得可怕的质量,宣告了一个新时代的到来。更重要的是,它改变了人们与AI绘图工具的交互方式——从复杂的参数调整到自然语言对话。
 
图片 (1024x1024)
图片 (1024x1024)
 
未来,我们可能不再需要SD、ComfyUI或ControlNet等工具和插件,一个对话框就能满足从简单创意到复杂艺术创作的各种需求。
 

最后的思考

 
就在GPT-4o图像生成能力发布的同一天,Google也发布了Gemini 2.5 Pro。然而,当我打开Twitter(X)时,我的时间线几乎全被GPT-4o的生图案例攻占,Gemini 2.5 Pro的声量被完全淹没。
 
这不禁让人想起之前Gemini 1.5 Pro被Sora压过风头的情形。看来,在AI领域的关键节点上,OpenAI总能抢占先机。
 
作为AI爱好者,我们有幸见证并参与这场技术革命。而对于内容创作者、设计师和普通用户来说,AI图像生成工具的门槛正在迅速降低,创意表达的可能性却在不断扩展。
 
图片 (1024x1024)
图片 (1024x1024)
 
这是AI时代,更是我们的时代。
 
我是易安,关注我和我一起探索AI的无限可能!
 
 
上一篇
SSH Socks5代理配置完整教程
下一篇
manus的处境极其危险