type
status
date
slug
summary
tags
category
icon
password
Google这两天动作不断。继昨天开源Gemma3后,今天又迎来了期待已久的重磅更新——Gemini 2.0的原生多模态生图功能终于解锁了!

作为我最期待的功能之一,体验后不得不说:这真的太强了。
经过一下午的深度体验,今天就来分享一下这个功能的惊艳之处。
一句话改变图像,就是这么简单
首先,来直观感受一下它的魔力。
假设我有一张自己喜欢的猫咪照片,但我想把它变成蓝色。无需打开PS,不用懂任何图像编辑技术,只需一句简单的话:"把这只猫变成蓝色",Gemini 2.0就能在保留所有细节的情况下完成这一转变。

还想让猫咪戴上一顶小帽子?一句话的事。

想让它从室内场景变到户外草地上?一句话搞定,haha有点表情包赶脚。

更多惊艳案例
比如这是一张普通的咖啡杯照片,我想把它变成骨瓷材质,再加上金边装饰。说完这句话,几秒钟后,我的普通咖啡杯就焕然一新。

又或者,这是一份简单的手绘菜单草图。我只需说:"请根据这张草图生成一份精美的咖啡店菜单",Gemini立刻就能创建出一份精美的成品菜单,保留我的基本布局但大幅提升了质感。


甚至可以实现文字修改。比如一张产品包装照片,想把上面的品牌名称改掉,一句指令就能完成。


技术原理简析
得益于Gemini 2.0强大的多模态能力,它实现了类似于GPT-4o的能力突破。如果说GPT-4o是语音端到端,那么Gemini 2.0则是图片端到端,将图像理解和生成无缝集成。
虽然生成的图片质量还达不到Midjourney或Flux的水平,泛化能力也有待提升,但作为一个内置于多模态模型中的功能,已经相当令人惊艳。这种"言出法随"的能力,在多模态大模型中尤为重要。
实际使用指南
想要亲自体验这一功能非常简单:
- 打开https://aistudio.google.com/(需要网络工具)

- 登录后在右侧将模型切换为"Gemini 2.0 Flash Experimental"

- 输出格式务必选择"Images and text",否则无法生成图像

- 在对话框中上传图片,加上你想要的修改描述即可

目前这一功能处于限时免费阶段,可以尽情体验。
更多创意玩法
Gemini 2.0不仅可以修改单张图片,还能实现更复杂的操作:
比如我上传了两张图片:一张是我喜欢的包包款式,另一张是我偏爱的皮革材质,然后要求将两者结合。虽然细节上还有些许不完美,但整体效果已经相当惊艳。



更厉害的是,你还可以让它生成完整的图文教程。比如我要求它创建一份烘焙蛋糕的步骤指南,它不仅生成了文字说明,还配上了每个步骤的对应图片,一篇完整的图文教程就此诞生。
甚至可以上传一张房屋平面图,请它为每个房间生成装修效果图,设计方案一键呈现。

易安锐评
两年多来,生成式AI在图像编辑领域的进步就像一场悄然进行的革命。从前需要苦学多年的Photoshop技术,如今只需简单一句话就能实现。我们不再受限于专业技能的掌握程度,即使是完全没接触过图像处理的普通人,也能轻松地将脑海中的创意变为现实。
这或许就是AI时代赋予我们最强大的工具:言出法随,创意无限。
预计再给半年时间迭代,这项功能的潜力将进一步释放,带来更多令人惊叹的可能性。
感兴趣的小伙伴,快去试试吧!
- Author:NotionNext
- URL:http://preview.tangly1024.com/article/22ced26c-0da0-81fa-960b-d2c71ff2d2ec
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!