GPT Image 2 的技术方向引发关注
GPT Image 2 凭什么这么强?是扩散模型又迭代了一版,是把 DiT 的参数量从 7B 扩到 20B,还是训了更多高质量数据?这些答案都对,但都不够。与多位从业者交流后,提炼出几个值得关注的技术方向。OpenAI 很可能已不在“纯扩散模型”主赛道,而是把图像生成从“美术课”调到“语文课”,用能读懂指令、记住上下文、理解物体关系的 LLM 主导语义规划,像素生成可能由扩散组件或其他解码器完成,这个 LLM 极大可能是 GPT - 4o。
直接线索支撑推论
支撑这个推论有两条直接线索。C2PA 是一种内容溯源标准,给 AI 生成图打数字身份证,能查到图由 GPT Image 2 生成、生成时间及修改情况。有专业人士在 metadata2go.com 上对 image 2 生成的图片进行元数据提取,发现在 actions_software_agent_name 一栏记录着 GPT - 4o,这也解释了 image 2 表现惊人的原因。
图像语义:从像素到 token
过去两年,AI 生图领域有鄙视链,Midjourney 负责美学,Stable Diffusion 负责可控性,DALL·E 负责被 OpenAI 发布。但文字是 AI 的鬼门关,能让 AI 画出逆光下缅因猫毛发质感,却写不对招牌上的字母。扩散模型写不好字,因为其核心是从噪声中还原图像的“雕塑家”,训练时向清晰照片撒噪声,生成时从随机噪声开始去噪“雕”出图像。文字是离散符号,扩散模型去噪用在文字上会出错,且缺乏跨轮编辑的稳定一致性。而 GPT Image 2 不仅能“写对字”,还能保持“有记忆”的一致性,说明文字是画面语义一部分,改动会驱动画面其他元素合理变化。
GPT Image 2 把图像当语言看。Tokenizer 能把东西“翻译”,GPT 处理文字前先 token 化。图像也能 token 化,但传统做法太笨重。过去两年,大模型公司在拼把图压成尽量少的 token 且不丢关键信息。OpenAI 构建了视觉与语言间的语义表示体系,图像和文本投影到同一语义 embedding 空间,LLM 能像理解文字一样理解图像、生成图像,所以能写对文字。
若把图像变成语义密文,变回能看的图,直接映射像素画质会差。自回归模型擅长决定画什么,扩散模型擅长画得好看,推测让两款模型配合。自回归负责定调,生成语义 token,敲定画面内容、位置关系和构图逻辑,保证多轮编辑的记忆与一致性;扩散负责润色,填充高保真像素。Google 的 Transfusion 论文和 Meta 的 Chameleon 走的是类似路线。OpenAI 在 2026 年 4 月的媒体会上拒绝回答模型架构问题,若假设成立,能解释文字写对、多轮编辑一致和画质没崩的原因。
数据飞轮:GPT - 4o 自己教自己生图
能把图像压成几百个 token 的“密语系统”是怎么训出来的,为何是 GPT - 4o?答案在数据标注。在 AI 圈,数据标注处于鄙视链底端,但 GPT Image 2 表现表明 OpenAI 可能不需要人工标注。GPT - 4o 是强图像理解模型,能为图片生成细腻描述,OpenAI 用它为几十亿张图片重新标注。但还需解决“筛选”问题,即拒绝采样,GPT - 4o 生成图像后按标准打分,符合条件的用于下一轮训练。上一代模型给下一代当老师,差距会拉大,这解释了 Midjourney 在画质能与 OpenAI 竞争,但在指令遵循和文字渲染上被拉开代差。学术界担心模型崩溃,但 OpenAI 在文本侧证明,配合严格筛选机制,能形成数据飞轮。
数据飞轮里还有 RLHF 在图像侧的质检员。在文本侧,RLHF 由 GPT - 4o 完成打分。在图像侧难度骤升,质检员需兼顾美学偏好、指令遵循和安全过滤,标准不同且可能冲突。OpenAI 把图像侧问题拉回语言理解战场,将各项标准转译成 LLM 语义空间里的内容,这可能是数据飞轮的底牌,全链路统一到一个理解框架,拒绝采样和 RLHF 共享语义标准,飞轮才能转动。
工程解法:兼顾推理速度和对话整合
生图质量提升但速度未变慢是工程奇迹。自回归模型逐 token 生成,扩散模型可并行去噪,理论上 GPT Image 2 用自回归架构推理延迟应更高,但实际并非如此。原因可能有:Token 压缩率远超预期,OpenAI 做到语义对齐且压缩率极致;推理架构深度优化,自回归生成粗粒度语义 token,扩散模型最后按图施工;投机解码可能用于图像侧,OpenAI 在 GPT - 4 时代已熟悉此技巧,移植到图像侧无原理障碍。所以 GPT Image 2 快是因为把语义规划交给擅长快速推理的 LLM。
与对话系统的整合更影响体验。传统图像生成工具以“单次输入 → 单次输出”为主,用户需反复试错。集成在对话系统中的图像生成引入连续上下文机制,用户可在多轮对话中细化需求,模型利用对话历史理解修改对象或属性,修改请求可用自然语言表达。对话式交互还能提高需求澄清能力,让生成结果更符合用户预期。
结语
在 GPT Image 2 出现前,AI 生图领域讨论围绕扩散模型缩放定律、架构优劣等问题,隐含前提是图像生成需专门架构。而 GPT Image 2 表明不一定,其出现指向更大命题:世界模型,促使重新思考生成和世界的概念。