OpenAI 正式推出其新一代图像生成模型 GPT Image 1.5,并同步在 ChatGPT 中上线独立的 “Images” 标签页。这不仅是一次技术迭代,更是一场从“随机生成”到“精准创作”的范式转变。新模型在细节控制、指令理解、编辑一致性等方面实现重大突破,被 OpenAI 官方称为“目前最懂用户意图的图像模型”。
更罕见的是,OpenAI 此次公开了 超过百人的研发团队名单,彰显其对图像生成赛道的战略重视。伴随迪士尼 10 亿美元 IP 授权合作的官宣,GPT Image 1.5 正加速从工具走向产业生态。
一、核心功能:不只是生成,更是“可控创作”
1. 精准多轮编辑,全局特征零丢失
GPT Image 1.5 首次实现真正意义上的局部编辑:用户可连续下达多条指令(如“把她的头发染成红色,背景虚化,再加一顶草帽”),模型能精准执行每一步,同时保持人物面部、光影、姿态、服装纹理等关键特征不变。
2. 超强指令遵循能力(Prompt Adherence)
得益于图像令牌化(Image Tokens)网格架构,模型能像理解语言一样理解图像结构。用户使用自然语言即可指定:
区域操作:“模糊背景中穿蓝衣服的人”
属性替换:“将咖啡杯换成透明玻璃杯,保留蒸汽效果”
风格迁移:“转为宫崎骏动画风格,但保留原始构图”
3. 文字渲染突破历史性难题
长期以来,AI 生成文字常出现乱码、倒置或语义错误。GPT Image 1.5 通过语义-视觉联合建模,可稳定生成:
黑板板书(含公式、英文单词)
产品包装标签(品牌名、成分表)
科学示意图(带图例、坐标轴、单位标
虽在中文等复杂语系仍有提升空间,但已达到商用级可用水平。
二、技术突破:为什么它更“聪明”?
1. 原生多模态架构 + 图像令牌网格
GPT Image 1.5 并非在扩散模型上“打补丁”,而是基于 GPT 多模态底座原生开发。其核心是将图像划分为 高分辨率令牌网格(Token Grid),每个令牌既包含视觉信息,也关联上下文语义。这使得模型能:
理解“手拿咖啡杯”与“杯子在桌上”的空间关系;
在编辑时只更新相关令牌,而非重绘全图。
2. 扩散 + 自回归融合架构
传统扩散模型逐像素生成,效率低;自回归模型易失真。GPT Image 1.5 创新性地融合两者优势:
先通过扩散阶段生成全局结构;
再通过自回归令牌解码细化局部细节。
结果:生成速度提升 4 倍,同时细节保真度显著提高。
3. Temporal 系统保障长任务稳定性
针对多轮编辑、高分辨率输出等长周期任务,OpenAI 引入 Temporal 任务调度系统(基于 C/Python 优化),确保生成过程不崩溃、不漂移,特别适合商业级批量生产。
三、应用场景:从个人创作到产业级落地
1. 创作者:你的 AI 视觉助理
实时对话式修图:上传草图,用语音或文字指令生成成品;
风格探索:输入“80 年代复古广告 + 赛博朋克色调”,一键生成;
多比例适配:支持 1:1、4:5、9:16、16:9 等社交平台全尺寸输出。
2. 专业设计:初级岗位的“替代者”?
生成商品爆炸图、UI 界面原型、四格漫画分镜;
输出医学解剖示意图、工程结构图等结构化内容;
快速制作教育课件插图(如“光合作用过程图”)。
3. 商业生态:IP × AI 的新纪元
迪士尼合作:用户可在合规范围内生成漫威英雄、星战角色、冰雪奇缘场景等内容,部分优质作品将登上 Disney+;
Adobe 深度集成:ChatGPT 可直接调用 Photoshop 功能,如“用 AI 模糊背景”,结果自动回传至 Acrobat 或 Premiere;
API 开放:企业可通过 gpt-image-1 接口调用,单张高质量图成本约 0.25 美元(高于部分开源模型,但胜在可控性)。
四、现状与挑战:并非完美无缺
尽管 GPT Image 1.5 表现惊艳,但仍存在明显局限:
多语言支持不均衡:中文、阿拉伯文等非拉丁语系文字渲染仍有错误;
风格一致性波动:在多图生成任务中,角色外观偶有漂移;
“诡异凝视”问题:部分人物生成中眼神空洞或方向异常,需进一步优化人眼建模;
成本门槛:免费用户提供限速生成,高质量商用仍需付费。
此外,面对 Midjourney 6.5、Stable Diffusion 4、Nano Banana Pro 等强劲对手,OpenAI 也被曝正加速推进代号为 “Chestnut” 和 “Hazelnut” 的下一代模型盲测,图像赛道竞争日趋白热化。
图像生成进入“导演时代”
GPT Image 1.5 的意义,不仅在于“画得更真”,而在于 “听得更懂”。它把图像生成从“掷骰子”变为“下指令”,让用户从“碰运气”转向“精准创作”。随着独立 Images 入口的普及、API 的开放以及迪士尼等 IP 的注入,OpenAI 正在构建一个 “提示词即生产力” 的新生态。
未来,或许你只需说一句:“生成一段 5 秒视频,展示钢铁侠在东京街头喝抹茶拿铁,风格写实,镜头从低角度推近”,AI 便能同步调用 GPT Image 1.5 + Wan-Move(运动控制) + Disney IP,交付完整内容——而这一天,或许比我们想象的更近。
相关链接:https://chatgpt.com/images
相关链接:https://platform.openai.com/docs/models/gpt-image-1.5
相关链接:https://platform.openai.com/playground/images
相关链接:https://cookbook.openai.com/examples/multimodal/image-gen-1.5-prompting_guide