实测ChatGPT最新生图模型三大发现

过去这半年，AI生图领域的竞争异常激烈，很多人可能只是耳闻，却不清楚具体激烈程度。接下来，得到AI学习圈主理人快刀青衣老师，来和你盘点一下。

作者：快刀青衣

来源：得到App《AI学习圈》

首先是2025年8月，谷歌发布图像模型Nano Banana，一下子把AI生图的天花板抬高了一大截。

而在年底，面对谷歌Gemini 3+Nano Banana的全面攻势，山姆·奥特曼在公司内部拉响「红色警报」（Code Red），要求全员集中资源攻坚图像生成能力。

随后，他们快速推出了GPT-Image-1.5版本，虽然在一些跑分榜上领先，但在消费侧和用户侧都没激起什么水花，大家还是更青睐谷歌的模型。这是为什么呢？

每当新的AI生图模型发布，我都会第一时间上手试用。对比同期的王者Nano Banana，GPT-Image-1.5的质量没有多少提升，细节刻画落后一截，再加上谷歌坐拥庞大用户基数，数据飞轮转得更快。

著名产品大神俞军在《俞军产品方法论》中提出经典公式：

用户价值 = 新体验 – 旧体验 – 替换成本

这个公式深刻揭示了用户选择产品的底层逻辑，只有当新产品的新体验显著超过旧体验加替换成本的和，用户才愿意尝试或切换产品。放到这个例子里，就是GPT-Image-1.5的能力提升，不足以让用户放弃原有习惯迁移到新产品上。

但2026年4月21日，OpenAI的正式反攻来了——GPT-Image-2。

今天我想和你聊的不是它画得多好看，现在几家大模型都能做到这一点。我想说的是，这次AI生图的底层逻辑彻底变了。

过去这些年，所有AI生图模型的工作方式本质都一样：你写一段描述，越详细越好，模型照着描述渲染图片。你是甲方，AI是执行者，描述越精确，出图效果越好。

所以整个行业都在卷「提示词工程」，谁的指令写得好，谁的图就好看。这也催生了大量生图提示词网站，我自己就收藏了很多。

早前用Midjourney时，我每天都会找到几张别人做的很厉害的AI图片，然后抄他们的提示词，忍不住想「他怎么这么会写提示词，怎么知道这么多冷僻的艺术单词？」

而Midjourney退位后，谷歌的Nano Banana模型成了这个逻辑的极致。它是个非常强的设计师，你说什么它画什么，又快又好。

但GPT-Image-2给我的感觉完全不同：它不再是简单的设计师，更像一个设计总监带着一个小团队。

我举个细节说明。用它生图时，你的屏幕上会出现一串状态提示：正在创建图片→先打个草稿→生成初稿中→搭好场景→打磨细节→收尾中→最后润色中→最后微调一下。

看到这串流程，你会想到什么？我当时的第一反应是，这不是一个人在干活，而是有人先出草图，有人搭场景，有人打磨细节，最后还有人做整体润色。就像以前你对面是一个设计师，现在是一整个设计部门，由设计总监带队。

你可能会说，这只是界面提示，做做样子而已。但这个「样子」背后，是AI真实的能力变化。我做了一系列实测，分享三个发现，一个比一个令人震撼。

基本功补上了

先说文字渲染，这是AI生图出了名的老毛病，在行业里是公开的笑话。

2024年，TechCrunch的一位科技记者让AI画一张墨西哥餐厅的菜单，出来的结果里单词大多是乱码，这张截图当时在X上疯传。

▲ 2024年DALL-E 3生成的乱码菜单

而今年，同一位记者用同一段提示词测试GPT-Image-2，出来的菜单可以直接拿到餐厅使用，拼写无误，排版合理。

记者唯一的吐槽是：「酸橘汁腌鱼（ceviche verde）13.50美元，便宜得让我怀疑鱼的质量。」

▲ 2026年GPT-Image-2生成的完整菜单

这不是「进步了一点」，而是一次跨越。而且它不只是支持英文，中文、日文、韩文都能完美适配。这件事我要特别展开说。

以前我用AI生图，流程非常割裂。AI能帮我生成好看的背景图，但上面不能加字，中文字一加就乱码、错笔画、多偏旁，惨不忍睹。所以实际工作流程是让AI画背景，再自己手工加文字。很多人也默认这个问题难解决，都是自己再上手改。

但这个版本，搞定了中文渲染问题。为什么原本以为很难的中文字问题能顺利解决？在了解了这个模型的研发团队后，我发现一个有趣的细节。

研究负责人陈博远，MIT电子工程与计算机科学博士，本科伯克利，博士期间辅修哲学。官方博客里，展示了他直接用模型生成的一整页全中文彩色漫画，讲的就是他在OpenAI做中文文本渲染优化的故事。

漫画分五排，从他对着电脑埋头干活，到为家乡无锡生成多语言海报，到团队集体兴奋，再到收到奥特曼的祝贺短信。最后一排是重头戏：奥特曼发来一张图，上面写着「稳稳地接住你」，他当场破防。

你看，这张漫画本身，就是对中文文字渲染能力最好的证明。

▲ 用GPT-Image-2生成的全中文彩色漫画

而整个图像系列的团队负责人加布里埃尔·吴（Gabriel Goh），也在社交媒体上晒出了一张团队成员的AI全家福。评论区直接有网友感叹：怎么全是亚洲人？

▲ OpenAI图像生成团队AI全家福

我觉得正是核心团队里有深厚的中文背景，所以这个版本的中文渲染能力有质的飞跃。因为做这件事的人，自己就是中文使用者，知道中文排版应该长什么样。

对我们中文内容创作者来说，这才算真正开门。

它会替你思考，不只是听指令

比基本功更重要的，是第二个发现。

我做了个测试，把一篇几千字的《快刀广播站》文稿扔进去，没写任何复杂提示词，只说了一句话：「帮我生成这篇文章的信息图」。

结果出来的长图逻辑清晰、层级分明，关键概念都被准确提炼出来。它没有问我「你想要什么风格」，也没有问「重点是什么」，而是自己读完文稿，自己判断，自己出图。

▲ 只扔了一段文稿，AI自动生成的信息图

还有一个更极端的例子。测试书的封面设计时，我只说了句「一本书的封面，体现千行百业都在用AI」，没多说任何信息。

它自己设计了书名和副标题，自己构思了封面的意境，出来的结果完全没有违和感，就像真正读过这本书的设计师做的。

▲ 只给了一句话，AI自主完成的封面

而在官方演示里，OpenAI研究员杨宇光（Yuguang Yang）上传了一份70页GPT-3的PDF文件，要求直接生成一个7页的PPT。AI能自行读懂文件内容，完成PPT，有排版设计、图表信息完整——不是随便配张图，而是真正读懂后再创作。

▲ 上传70页PDF，AI自动生成7页完整PPT

这就是设计师和设计总监的区别。

设计师照你的需求干活，你说什么他画什么；设计总监会先了解你的业务、审美和想要的感觉，再给出方案。你不需要事先想好所有细节，因为他会替你考虑。

生图一致性提升

第三个发现，证明这不是单点突破，而是系统性能力提升。

以前用AI生成多张图片，最大的痛点是保持一致性：生成一组产品图，风格前后对不上；想做连载漫画，主角长相每一格都在变。要拼成一套连贯内容，需要大量手工修改。

这次GPT-Image-2一次请求最多能生成8张连贯图，人物外貌、服装、风格、光影，跨图保持一致。

在发布会上，研究员宋基桓上传了自己的照片，让模型生成8套夏日穿搭，再要求从多个角度展示第一套穿搭。

8张图里，他的面部特征全程一致，不同角度、不同姿势，却能一眼认出是同一个人，就像真实试衣的效果。

▲ 8套穿搭，同一人物面部特征一致

我自己测试的是一组6格连贯漫画，描述的是一个上班族每天通勤路上听快刀广播站的故事。6个场景、6张图，同一个人物、同一种风格，温暖色调全程统一。

以前这种效果要花大量时间手动对齐，现在一次请求就能直接生成。当然，因为我没给更多产品信息或参考，就简单描述了下场景，所以在一些呈现上还不够准确。

▲ 6格连贯漫画，同一人物风格贯穿始终

提示词：生成6张连贯的漫画，描述一个上班族每天通勤路上听得到App上快刀广播站的故事：第1格：他戴着耳机挤地铁，神情茫然；第2格：听到一条AI新闻，眼睛亮了；第3格：在办公室和同事分享，同事惊讶；第4格：午饭时间用AI完成了以前要一下午的报告；第5格：向老板汇报，老板竖起大拇指；第6格：晚上回家路上，他已经在向另一位路人推荐这档节目。人物：男性，30岁左右，格子衬衫，扁平插画风，人物外貌全程一致，温暖色调。

你看，这三件事加在一起——基本功补上了，会替你思考了，还能成体系交付。你面对的不再是一个接单干活的设计师，而是一个真正能扛项目的设计总监。

这次变化的底层逻辑

这个变化的底层逻辑是什么？我觉得有一段分析说到了点子上。专注AI领域的独立媒体Implicator.ai在拆解模型时写道：

谷歌是把推理能力塞进了图像模型，OpenAI是把图像工具塞进了推理模型。

这句话值得深入思考。Nano Banana的思路是先有一个图像模型，再往里面添加推理能力，本质上还是生图工具的进化；OpenAI的思路是先有一个推理模型，再给它装上画图能力，本质上是一个会思考的大脑在学习新技能。

一个是让会画画的变聪明，一个是让聪明人学会画画。如果这段内容你觉得有点绕，建议停下来好好想想。老实说，这是最让我醍醐灌顶的一句话，两条路起点不同，天花板也截然不同。

此外，数据能直观体现差距。在Arena文生图榜单（Image Arena）上，GPT-Image-2比第二名Nano Banana 2领先241分。

这是Image Arena有史以来最大的领先差距，不是「领先一步」，而是领先一个量级。

▲ Arena文生图榜单

普通人能抓住什么机会？

说了这么多技术细节，咱们普通人能抓住什么机会？

我觉得最直接的变化是，你不再需要纠结「怎么跟AI说话」了。过去几年，很多人花大量时间学习写提示词。这件事本身说明一个问题：AI太需要被「伺候」了。你得用它听得懂的语言沟通，否则结果就会跑偏。

但现在不一样了，你只需要知道自己要什么。把文件扔进去，把想法说出来，它自己去读、去思考、去创作。这个变化对普通人来说，意义比任何跑分数据都大。

而具体到工作场景，变化已经在发生。

做内容的人感触应该最深。以前一张好配图要花一两个小时——找版权图、用PS编辑、加文字、调排版，有些还要找专业设计师。现在花三五分钟，各种复杂视觉图片能直接生成。

创业早期的人也能受益。创业初期最难的事之一就是没钱请设计师，但产品还在验证阶段，又必须做视觉物料，很多人就卡在这道坎上。现在AI生成的各类海报、运营物料等在创业初期基本完全够用，这道门槛被直接消灭了。

还有一个特别实用的场景是做客户提案。比如见客户前，针对他们的需求方向直接生成三个不同视觉风格的方案，摆在桌上让客户选。AI把提案过程从「你猜我想要什么」变成「你给我选哪个」，决策速度至少快了一倍以上。

当然，有一点要说明白，它是设计总监，但不是万能的。

OpenAI自己也承认，新模型在应对折纸步骤图、魔方这种需要精密三维物理逻辑的任务仍存在问题；标签和图表，尤其是带精确箭头指向或者部件标注的内容，仍需人工审核准确性。

咱们知道这几个坑，可以轻松绕开，不用因为一次失误就否定这个工具。

AI生图的变化

说到这里，我想说，AI生图已经走过三个阶段。

第一个阶段是「能用但很丑」，大家把它当玩具；第二个阶段是「好看但要调教」，催生了整个提示词工程行业；现在进入第三个阶段，「你只需要说清楚要什么，剩下的它来想」。

从2023年开始，我一直在用同一句提示词测试不同时代的AI生图模型：

一对年轻的中国情侣，穿着夹克和牛仔裤，坐在屋顶上，背景是80年代的北京。

这句话同时考验四件事：面部细节、服装质感、空间透视、年代氛围感。

2023年生成的图片简直不像人类；2025年Nano Banana让我第一次觉得「有点意思」，但人物虽然精细了，背景还是一塌糊涂。

▲ 同一句提示词，不同年份不同AI生成结果对比

但就在这周，我用GPT-Image-2测试的结果让我惊喜。光影、面部细节、牛仔裤的褶皱、远处楼房的年代感，第一次让我觉得AI真的「看见」了80年代的北京。

那对年轻情侣脸上的神态，符合80年代时髦青年的特有装扮，背后大楼上「北京百货大楼」的字样，更是让我倍感意外。

▲ GPT-Image-2生成的80年代北京

然后，我把2023年到现在的所有测试作品，在公众号发了一篇贴图：

从 Midjourney 到 GPT-image-2，三年变化

让我吃惊的是，有用户用一模一样的提示词，只把「北京」换成「深圳」，生成的图片背景就不再是「北京百货大楼」，而是两个极具特色的大广告牌：一个写着「深圳经济特区好」，另一个楼顶上的巨大霓虹灯牌写着「时间就是金钱，效率就是生命」。

▲ AI生图来自用户@東深的学习笔记

这里也推荐你去看看这条贴图的留言区里大家生成的图片。要知道每个人的提示词里根本没有这些细节，全是AI自己思考后，还原的80年代的样子。

结语

最后，评价一个AI工具，以前看它听不听话，现在要看它会不会替你想。

借着这个新模型，我想跟你说件事。在新工具出现时，很多朋友不仅想学习怎么用，还想知道到底选哪个好。所以我准备在我的视频号「快刀青衣学AI」上，开辟一个新的直播栏目，帮大家直播评测各种AI产品。

我的本职工作是产品经理，需要深度体验各类产品。以前主要做软件产品，2025年我们做了GetSeed AI录音卡，现在我对硬件产品也很感兴趣。

这个AI评测直播栏目暂定为「快刀实验室」，我想它会有三个特点：

第一，需求都来自用户点单。大家呼声高的，我就去评测。

第二，我会让AI重度参与评测过程。比如出测试题，把几个不同的AI组成评审团。

第三，最重要的，这个评测背后不会有任何商业化行为。未来你可以说我的评测不专业，但不能说我收钱了。

如果你对这个评测感兴趣，或者想点单，可以点击下方链接预约第一期直播，就在4月27日晚上7点，欢迎你一起参与进来。

文章原文