GPT Image 2:自回归架构的视觉推理时刻,图像生成从"画"到"想"

日期:2026/04/28

核心判断

GPT Image 2 的真正突破不在画质,而在"想"——它首次将语言模型的推理能力引入图像生成流程,在落笔前先规划构图、搜索参考、自检输出。这标志着图像生成从"扩散去噪"走向"自回归推理",竞争维度从视觉保真度升级为视觉理解力。

发生了什么

4月21日,OpenAI发布ChatGPT Images 2.0(底层模型gpt-image-2),上线12小时内横扫Arena三榜:文生图1512分、单图编辑1513分、多图编辑1464分,文生图领先第二名242 Elo——Arena历史上最大断层。

技术层面,GPT Image 2彻底抛弃了DALL-E系列的扩散架构,转而采用自回归(autoregressive)方式逐token生成图像,与GPT-5.4语言模型深度集成。核心能力包括:原生2K分辨率(可4K上采样)、99%字符级文字渲染准确率(覆盖中日韩阿拉伯等7种文字)、多轮编辑保持上下文一致性、以及最关键的"thinking模式"——生成前可联网搜索参考、规划构图、自我检查。

DALL-E 2和DALL-E 3将于5月12日退役。API预计5月初开放。Figma、Canva、Adobe Firefly等已宣布集成。

为什么值得关注

架构路线之争有了初步答案。 扩散模型(Stable Diffusion、Imagen)通过迭代去噪生成图像,擅长全局一致性和照片级真实感;自回归模型逐token生成,天然具备"先想后画"的规划能力。GPT Image 2的断层领先表明,当自回归架构被推到足够大的规模,它不仅能追平扩散模型的视觉质量,还能解锁扩散模型做不到的事——复杂指令遵循、多步推理、结构化视觉输出(信息图、UI稿、多格漫画)。

"thinking for images"是质变。 此前所有图像模型都是"输入prompt→直接输出像素",中间没有推理过程。GPT Image 2在生成前可以:理解复杂指令的层次关系、搜索网络获取参考、规划布局和元素位置、生成多个候选并自检。这意味着图像生成从"条件反射"变成了"有意识的创作"——对信息图、幻灯片、UI原型等结构化视觉任务尤其关键。

文字渲染的突破打开了商业应用大门。 99%的多语种文字准确率意味着AI生成的图像终于可以"带字出街"——海报、名片、社交媒体素材、产品包装。此前AI图像最大的商用障碍就是"字是乱的",这个瓶颈被实质性突破。

可能影响

参考文献


前沿科技异动雷达 2026/04/28