GPT-4o生图能力正式上线：一句话的事，把AI绘图生态颠覆了！

type

status

date

slug

summary

这和DALL E 3有何不同？

你可能想问：GPT-4o的图像生成和之前的DALL·E 3有什么不同？

关键区别在于：这不是简单的模型串联，而是一个真正的端到端多模态模型。

在OpenAI看来，图像生成本应是语言模型的核心能力。实际上，早在2024年5月首次发布GPT-4o时，官方就提到这是个原生多模态模型，只是当时图像生成能力被"暂时搁置"了。如今，这个被鸽了将近一年的功能终于来了，而且效果惊艳。

我连夜进行了测试，从简单的场景到复杂的艺术风格转换，GPT-4o展现出了令人窒息的图像理解和生成能力。

超乎想象的能力边界

先来欣赏几组我实测的例子：

看到了吗？从最初的抹茶拿铁到梵高《星空》风格的转换，再到咖啡馆环境的扩展，加入人物，季节变化，最后甚至到超现实主义的融合——GPT-4o几乎没有失手过。

这项能力的亮点主要体现在以下几个方面：

文本精准渲染

不同于其他生图模型对文本的模糊处理，GPT-4o能将文字准确地渲染到图像中，这对于制作菜单、海报、邀请函等实用型图像至关重要。

多轮对话修改

最令人震撼的是，你可以通过自然对话持续修改已生成的图像。这不是简单的图像编辑，而是在保持视觉一致性的前提下，通过语言理解进行深度调整。我在测试中，从原始抹茶图开始，一步步引导GPT-4o创造了一个完整的视觉叙事。

指令精准执行

GPT-4o的指令跟随能力堪称业界顶尖。据OpenAI介绍，其他系统在处理5-8个对象时就会遇到困难，而GPT-4o能同时处理10-20个不同对象，并精确保持它们与特性的绑定关系。

风格精准转换

无论是梵高的漩涡笔触，还是中国传统水墨画风格，甚至是两种风格的跨文化融合，GPT-4o都能精准捕捉并重现。这种能力让AI创作从"仿造"走向了"理解"，为创意工作者提供了无限可能。

对比体验：ChatGPT vs Sora网站

目前，有两个渠道可以使用GPT-4o的图像生成能力：ChatGPT和Sora网站。

在ChatGPT中，当画图选项不再显示"DALL·E"时，说明已经切换到了GPT-4o的生图能力。这里的优势是可以进行连续多轮对话修改，但缺点是即使是Pro会员也会受到使用频率限制。

而在Sora网站上使用时，速度极快，可一次性生成多张图片，且基本无限制使用。但生成后的图片无法进行多轮对话修改。

美中不足之处

尽管GPT-4o的图像生成能力让人惊叹，但它并非完美无缺。OpenAI也坦诚了当前存在的一些局限性：

长图裁剪问题，特别是底部容易被过度裁切

低上下文提示时可能出现幻觉

处理超过20个不同概念的复杂场景时准确性下降

非拉丁语系文字渲染存在困难

编辑精度问题，修改特定部分时可能导致其他部分意外变化

小尺寸文本密集信息呈现效果不佳

这意味着什么？

GPT-4o的图像生成能力不仅仅是一项新功能，它很可能重塑整个AI绘图工具生态。

当年，Midjourney让世界见识了AI画师的潜能；Stable Diffusion则将开源火炬交到了社区手中；Gemini展示了多模态的雏形，却始终差了火候。

而今天，GPT-4o用几乎成熟得可怕的质量，宣告了一个新时代的到来。更重要的是，它改变了人们与AI绘图工具的交互方式——从复杂的参数调整到自然语言对话。

未来，我们可能不再需要SD、ComfyUI或ControlNet等工具和插件，一个对话框就能满足从简单创意到复杂艺术创作的各种需求。

最后的思考

就在GPT-4o图像生成能力发布的同一天，Google也发布了Gemini 2.5 Pro。然而，当我打开Twitter（X）时，我的时间线几乎全被GPT-4o的生图案例攻占，Gemini 2.5 Pro的声量被完全淹没。

这不禁让人想起之前Gemini 1.5 Pro被Sora压过风头的情形。看来，在AI领域的关键节点上，OpenAI总能抢占先机。

作为AI爱好者，我们有幸见证并参与这场技术革命。而对于内容创作者、设计师和普通用户来说，AI图像生成工具的门槛正在迅速降低，创意表达的可能性却在不断扩展。

这是AI时代，更是我们的时代。

我是易安，关注我和我一起探索AI的无限可能！