实测ChatGPT最新生图模型三大发现


‍‍‍

过去这半年,AI生图领域的竞争异常激烈,很多人可能只是耳闻,却不清楚具体激烈程度。接下来,得到AI学习圈主理人快刀青衣老师,来和你盘点一下。
作者:快刀青衣
来源:得到App《AI学习圈》

首先是2025年8月,谷歌发布图像模型Nano Banana,一下子把AI生图的天花板抬高了一大截。

而在年底,面对谷歌Gemini 3+Nano Banana的全面攻势,山姆·奥特曼在公司内部拉响「红色警报」(Code Red),要求全员集中资源攻坚图像生成能力。

随后,他们快速推出了GPT-Image-1.5版本,虽然在一些跑分榜上领先,但在消费侧和用户侧都没激起什么水花,大家还是更青睐谷歌的模型。这是为什么呢?

每当新的AI生图模型发布,我都会第一时间上手试用。对比同期的王者Nano Banana,GPT-Image-1.5的质量没有多少提升,细节刻画落后一截,再加上谷歌坐拥庞大用户基数,数据飞轮转得更快。

著名产品大神俞军在《俞军产品方法论》中提出经典公式:

用户价值 = 新体验 – 旧体验 – 替换成本

这个公式深刻揭示了用户选择产品的底层逻辑,只有当新产品的新体验显著超过旧体验加替换成本的和,用户才愿意尝试或切换产品。放到这个例子里,就是GPT-Image-1.5的能力提升,不足以让用户放弃原有习惯迁移到新产品上。

但2026年4月21日,OpenAI的正式反攻来了——GPT-Image-2

今天我想和你聊的不是它画得多好看,现在几家大模型都能做到这一点。我想说的是,这次AI生图的底层逻辑彻底变了

过去这些年,所有AI生图模型的工作方式本质都一样:你写一段描述,越详细越好,模型照着描述渲染图片。你是甲方,AI是执行者,描述越精确,出图效果越好。

所以整个行业都在卷「提示词工程」,谁的指令写得好,谁的图就好看。这也催生了大量生图提示词网站,我自己就收藏了很多。

早前用Midjourney时,我每天都会找到几张别人做的很厉害的AI图片,然后抄他们的提示词,忍不住想「他怎么这么会写提示词,怎么知道这么多冷僻的艺术单词?」

而Midjourney退位后,谷歌的Nano Banana模型成了这个逻辑的极致。它是个非常强的设计师,你说什么它画什么,又快又好。

但GPT-Image-2给我的感觉完全不同:它不再是简单的设计师,更像一个设计总监带着一个小团队

我举个细节说明。用它生图时,你的屏幕上会出现一串状态提示:正在创建图片→先打个草稿→生成初稿中→搭好场景→打磨细节→收尾中→最后润色中→最后微调一下。

看到这串流程,你会想到什么?我当时的第一反应是,这不是一个人在干活,而是有人先出草图,有人搭场景,有人打磨细节,最后还有人做整体润色。就像以前你对面是一个设计师,现在是一整个设计部门,由设计总监带队。

你可能会说,这只是界面提示,做做样子而已。但这个「样子」背后,是AI真实的能力变化。我做了一系列实测,分享三个发现,一个比一个令人震撼。

01

基本功补上了

先说文字渲染,这是AI生图出了名的老毛病,在行业里是公开的笑话。

2024年,TechCrunch的一位科技记者让AI画一张墨西哥餐厅的菜单,出来的结果里单词大多是乱码,这张截图当时在X上疯传。

图片

▲ 2024年DALL-E 3生成的乱码菜单

而今年,同一位记者用同一段提示词测试GPT-Image-2,出来的菜单可以直接拿到餐厅使用,拼写无误,排版合理。

记者唯一的吐槽是:「酸橘汁腌鱼(ceviche verde)13.50美元,便宜得让我怀疑鱼的质量。」

图片

▲ 2026年GPT-Image-2生成的完整菜单

这不是「进步了一点」,而是一次跨越。而且它不只是支持英文,中文、日文、韩文都能完美适配。这件事我要特别展开说。

以前我用AI生图,流程非常割裂。AI能帮我生成好看的背景图,但上面不能加字,中文字一加就乱码、错笔画、多偏旁,惨不忍睹。所以实际工作流程是让AI画背景,再自己手工加文字。很多人也默认这个问题难解决,都是自己再上手改。

但这个版本,搞定了中文渲染问题为什么原本以为很难的中文字问题能顺利解决?在了解了这个模型的研发团队后,我发现一个有趣的细节。

研究负责人陈博远,MIT电子工程与计算机科学博士,本科伯克利,博士期间辅修哲学。官方博客里,展示了他直接用模型生成的一整页全中文彩色漫画,讲的就是他在OpenAI做中文文本渲染优化的故事。

漫画分五排,从他对着电脑埋头干活,到为家乡无锡生成多语言海报,到团队集体兴奋,再到收到奥特曼的祝贺短信。最后一排是重头戏:奥特曼发来一张图,上面写着「稳稳地接住你」,他当场破防。

你看,这张漫画本身,就是对中文文字渲染能力最好的证明。

图片

▲ 用GPT-Image-2生成的全中文彩色漫画

而整个图像系列的团队负责人加布里埃尔·吴(Gabriel Goh),也在社交媒体上晒出了一张团队成员的AI全家福。评论区直接有网友感叹:怎么全是亚洲人?

图片

▲ OpenAI图像生成团队AI全家福

我觉得正是核心团队里有深厚的中文背景,所以这个版本的中文渲染能力有质的飞跃。因为做这件事的人,自己就是中文使用者,知道中文排版应该长什么样。

对我们中文内容创作者来说,这才算真正开门。

02

它会替你思考,不只是听指令

比基本功更重要的,是第二个发现。

我做了个测试,把一篇几千字的《快刀广播站》文稿扔进去,没写任何复杂提示词,只说了一句话:「帮我生成这篇文章的信息图」。

结果出来的长图逻辑清晰、层级分明,关键概念都被准确提炼出来。它没有问我「你想要什么风格」,也没有问「重点是什么」,而是自己读完文稿,自己判断,自己出图

图片

▲ 只扔了一段文稿,AI自动生成的信息图

还有一个更极端的例子。测试书的封面设计时,我只说了句「一本书的封面,体现千行百业都在用AI」,没多说任何信息。

它自己设计了书名和副标题,自己构思了封面的意境,出来的结果完全没有违和感,就像真正读过这本书的设计师做的。图片

▲ 只给了一句话,AI自主完成的封面

而在官方演示里,OpenAI研究员杨宇光(Yuguang Yang)上传了一份70页GPT-3的PDF文件,要求直接生成一个7页的PPT。AI能自行读懂文件内容,完成PPT,有排版设计、图表信息完整——不是随便配张图,而是真正读懂后再创作。

图片

▲ 上传70页PDF,AI自动生成7页完整PPT

这就是设计师和设计总监的区别。

设计师照你的需求干活,你说什么他画什么;设计总监会先了解你的业务、审美和想要的感觉,再给出方案。你不需要事先想好所有细节,因为他会替你考虑。

03

生图一致性提升

第三个发现,证明这不是单点突破,而是系统性能力提升

以前用AI生成多张图片,最大的痛点是保持一致性:生成一组产品图,风格前后对不上;想做连载漫画,主角长相每一格都在变。要拼成一套连贯内容,需要大量手工修改。

这次GPT-Image-2一次请求最多能生成8张连贯图人物外貌、服装、风格、光影,跨图保持一致。

在发布会上,研究员宋基桓上传了自己的照片,让模型生成8套夏日穿搭,再要求从多个角度展示第一套穿搭。

8张图里,他的面部特征全程一致,不同角度、不同姿势,却能一眼认出是同一个人,就像真实试衣的效果。

图片
图片

▲ 8套穿搭,同一人物面部特征一致

我自己测试的是一组6格连贯漫画,描述的是一个上班族每天通勤路上听快刀广播站的故事。6个场景、6张图,同一个人物、同一种风格,温暖色调全程统一。

前这种效果要花大量时间手动对齐,现在一次请求就能直接生成。当然,因为我没给更多产品信息或参考,就简单描述了下场景,所以在一些呈现上还不够准确。

图片

▲ 6格连贯漫画,同一人物风格贯穿始终

提示词:生成6张连贯的漫画,描述一个上班族每天通勤路上听得到App上快刀广播站的故事:第1格:他戴着耳机挤地铁,神情茫然;第2格:听到一条AI新闻,眼睛亮了;第3格:在办公室和同事分享,同事惊讶;第4格:午饭时间用AI完成了以前要一下午的报告;第5格:向老板汇报,老板竖起大拇指;第6格:晚上回家路上,他已经在向另一位路人推荐这档节目。人物:男性,30岁左右,格子衬衫,扁平插画风,人物外貌全程一致,温暖色调。

你看,这三件事加在一起——基本功补上了,会替你思考了,还能成体系交付。你面对的不再是一个接单干活的设计师,而是一个真正能扛项目的设计总监。

04

这次变化的底层逻辑

这个变化的底层逻辑是什么?我觉得有一段分析说到了点子上。专注AI领域的独立媒体Implicator.ai在拆解模型时写道:

谷歌是把推理能力塞进了图像模型,OpenAI是把图像工具塞进了推理模型。

这句话值得深入思考。Nano Banana的思路是先有一个图像模型,再往里面添加推理能力,本质上还是生图工具的进化;OpenAI的思路是先有一个推理模型,再给它装上画图能力,本质上是一个会思考的大脑在学习新技能。

一个是让会画画的变聪明,一个是让聪明人学会画画。如果这段内容你觉得有点绕,建议停下来好好想想。老实说,这是最让我醍醐灌顶的一句话,两条路起点不同,天花板也截然不同。

此外,数据能直观体现差距。在Arena文生图榜单(Image Arena)上,GPT-Image-2比第二名Nano Banana 2领先241分。

这是Image Arena有史以来最大的领先差距,不是「领先一步」,而是领先一个量级。

图片

▲ Arena文生图榜单

05

普通人能抓住什么机会?

说了这么多技术细节,咱们普通人能抓住什么机会?

我觉得最直接的变化是,你不再需要纠结「怎么跟AI说话」了过去几年,很多人花大量时间学习写提示词。这件事本身说明一个问题:AI太需要被「伺候」了。你得用它听得懂的语言沟通,否则结果就会跑偏。

但现在不一样了你只需要知道自己要什么。把文件扔进去,把想法说出来,它自己去读、去思考、去创作。这个变化对普通人来说,意义比任何跑分数据都大。

而具体到工作场景,变化已经在发生

做内容的人感触应该最深。以前一张好配图要花一两个小时——找版权图、用PS编辑、加文字、调排版,有些还要找专业设计师。现在花三五分钟,各种复杂视觉图片能直接生成。

创业早期的人也能受益。创业初期最难的事之一就是没钱请设计师,但产品还在验证阶段,又必须做视觉物料,很多人就卡在这道坎上。现在AI生成的各类海报、运营物料等在创业初期基本完全够用,这道门槛被直接消灭了。

还有一个特别实用的场景是做客户提案比如见客户前,针对他们的需求方向直接生成三个不同视觉风格的方案,摆在桌上让客户选。AI把提案过程从「你猜我想要什么」变成「你给我选哪个」,决策速度至少快了一倍以上

当然,有一点要说明白,它是设计总监,但不是万能的

OpenAI自己也承认,新模型在应对折纸步骤图、魔方这种需要精密三维物理逻辑的任务仍存在问题;标签和图表,尤其是带精确箭头指向或者部件标注的内容,仍需人工审核准确性。

咱们知道这几个坑,可以轻松绕开,不用因为一次失误就否定这个工具。

06

AI生图的变化

说到这里,我想说,AI生图已经走过三个阶段。

第一个阶段是「能用但很丑」,大家把它当玩具;第二个阶段是「好看但要调教」,催生了整个提示词工程行业;现在进入第三个阶段,「你只需要说清楚要什么,剩下的它来想」

从2023年开始,我一直在用同一句提示词测试不同时代的AI生图模型:

一对年轻的中国情侣,穿着夹克和牛仔裤,坐在屋顶上,背景是80年代的北京。

这句话同时考验四件事:面部细节、服装质感、空间透视、年代氛围感

2023年生成的图片简直不像人类;2025年Nano Banana让我第一次觉得「有点意思」,但人物虽然精细了,背景还是一塌糊涂。图片

▲ 同一句提示词,不同年份不同AI生成结果对比

但就在这周,我用GPT-Image-2测试的结果让我惊喜。光影、面部细节、牛仔裤的褶皱、远处楼房的年代感,第一次让我觉得AI真的「看见」了80年代的北京。

那对年轻情侣脸上的神态,符合80年代时髦青年的特有装扮,背后大楼上「北京百货大楼」的字样,更是让我倍感意外。

图片

▲ GPT-Image-2生成的80年代北京

然后,我把2023年到现在的所有测试作品,在公众号发了一篇贴图:

从 Midjourney 到 GPT-image-2,三年变化

让我吃惊的是,有用户用一模一样的提示词,只把「北京」换成「深圳」,生成的图片背景就不再是「北京百货大楼」,而是两个极具特色的大广告牌:一个写着「深圳经济特区好」,另一个楼顶上的巨大霓虹灯牌写着「时间就是金钱,效率就是生命」。

图片

▲ AI生图来自用户@東深的学习笔记

这里也推荐你去看看这条贴图的留言区里大家生成的图片。要知道每个人的提示词里根本没有这些细节,全是AI自己思考后,还原的80年代的样子。

07

结语

最后,评价一个AI工具以前看它听不听话,现在要看它会不会替你想。

借着这个新模型,我想跟你说件事。在新工具出现时,很多朋友不仅想学习怎么用,还想知道到底选哪个好。所以我准备在我的视频号「快刀青衣学AI」上,开辟一个新的直播栏目,帮大家直播评测各种AI产品。

我的本职工作是产品经理,需要深度体验各类产品。以前主要做软件产品,2025年我们做了GetSeed AI录音卡,现在我对硬件产品也很感兴趣。

这个AI评测直播栏目暂定为「快刀实验室」,我想它会有三个特点:

第一,需求都来自用户点单大家呼声高的,我就去评测。

第二,我会让AI重度参与评测过程比如出测试题,把几个不同的AI组成评审团。

第三,最重要的,这个评测背后不会有任何商业化行为未来你可以说我的评测不专业,但不能说我收钱了。

如果你对这个评测感兴趣,或者想点单,可以点击下方链接预约第一期直播,就在4月27日晚上7点,欢迎你一起参与进来。


文章原文