支持 GPT5.5+GPT-Image-2 合一中转-平芜编程栈

支持 GPT5.5+GPT-Image-2 合一中转：图像生成接口接入实操

做图像生成接入时，最容易踩坑的不是“怎么调接口”，而是文本模型和图片模型分开走两套配置：一个接口负责改提示词，一个接口负责出图，鉴权、限流、日志都要重复处理。实际项目里更常见的做法，是把 GPT5.5 用来整理 prompt、生成描述，把 GPT-Image-2 用来生成图片，中间用统一的中转接口承接，这样前端和业务服务只维护一套调用逻辑。

如果你已经接了文本对话接口，但图片一直返回 400、图片尺寸不对、批量任务偶发失败，建议先查三件事：模型名是否传对、图片参数是否符合接口约束、失败重试是否把同一个任务重复扣费。

一、典型使用场景

GPT5.5+GPT-Image-2 合一中转比较适合下面几类场景：

电商商品图：先用文本模型把商品卖点转成画面描述，再调用图片模型生成主图或场景图。
内容运营配图：文章标题、摘要交给 GPT5.5 扩写成 prompt，GPT-Image-2 输出封面图。
批量海报生成：后端按任务队列逐条生成，统一记录状态、耗时和失败原因。
内部工具：给运营同事一个简单页面，输入主题、风格、尺寸即可生成图片。

如果团队不想分别维护多个上游 key，中转层会省不少事。我自己接图像接口时，一般会优先选能同时支持文本和图片模型的服务，例如 token 云桥 AI 中转站 0029.org，这类合一入口适合先把业务跑通，再根据稳定性和成本继续优化。

二、接口调用流程

推荐的流程是：业务输入 → GPT5.5 整理 prompt → GPT-Image-2 生成图片 → 保存结果 → 返回图片 URL 或 base64。不要直接把用户输入原样丢给图片模型，尤其是批量生成时，prompt 不稳定会直接影响成本和出图质量。

1. 先整理文生图提示词

下面示例用 GPT5.5 把用户输入整理成更适合图像生成的描述。注意这里只做结构化和补充，不要让它输出太长，否则后续图像接口容易因为 prompt 过长失败。

### token云桥中转 0029.org ### curl -X POST "https://your-relay-domain/v1/chat/completions" \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-5.5", "messages": [ { "role": "system", "content": "你负责把用户需求整理成适合文生图的简洁提示词，包含主体、场景、风格、光线、构图，不要超过120字。" }, { "role": "user", "content": "给一款黑色机械键盘生成电商主图，科技感，适合详情页首屏" } ], "temperature": 0.4 }'

拿到整理后的 prompt 后，再进入图片生成接口。实际工程里建议把整理后的 prompt 入库，便于复现问题。

2. 调用 GPT-Image-2 生成图片

图像生成参数不要一次塞太多，先固定尺寸和质量，确认稳定后再开放给前端。一个基础请求可以这样写：

curl -X POST "https://your-relay-domain/v1/images/generations" \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-image-2", "prompt": "黑色机械键盘，悬浮在深色金属桌面上，蓝紫色科技光效，产品摄影风格，居中构图，高清细节，适合电商详情页首屏", "size": "1024x1024", "quality": "standard", "n": 1, "response_format": "url" }'

如果业务要直接存对象存储，可以让接口返回 URL 后由服务端下载；如果返回 base64，要注意响应体会明显变大，网关和日志系统不要完整打印。

三、文生图参数怎么选

尺寸 size

尺寸优先按业务场景选，不要盲目上大图。常见选择：

1024x1024：通用方图，适合商品图、头像、封面素材。
1024x1536：竖图，适合手机海报、小红书风格配图。
1536x1024：横图，适合博客封面、Banner 初稿。

如果下游还会二次裁剪，建议先生成略大一点的比例图，再由图片服务裁切，避免直接生成小图导致细节不够。

质量 quality

质量参数一般会影响耗时和成本。开发阶段建议用standard，上线前再对关键场景测试更高质量。不要把高质量默认开放给批量任务，否则成本很难控。

生成数量 n

n不建议一开始设太大。运营场景看似需要“一次出 4 张”，但接口失败时重试成本会放大。更稳的做法是后端拆成多条任务，每条n=1，这样失败只重跑单张。

四、批量生成与失败重试

批量出图不要在一个请求里循环打满接口，最好走队列。基本结构如下：

// 简化示例：Node.js 批量任务伪代码 const tasks = [ { id: 1, prompt: "黑色机械键盘，科技感主图" }, { id: 2, prompt: "白色无线鼠标，极简办公桌面" } ]; for (const task of tasks) { try { const result = await generateImage({ model: "gpt-image-2", prompt: task.prompt, size: "1024x1024", quality: "standard", n: 1 }); await saveImageResult(task.id, result); } catch (err) { await markRetry(task.id, err.message); } }

重试要区分错误类型：

参数错误：例如尺寸不支持、模型名写错，这类不要重试，直接标记失败。
限流错误：等待 5 到 30 秒再重试，重试次数建议不超过 3 次。
网络超时：先查任务是否已生成结果，避免重复提交。
内容被拒：记录 prompt，交给人工或规则系统改写，不要无限重试。

比较实用的做法是给每个任务生成一个业务侧request_id，写入日志和数据库。即使中转层没有幂等能力，自己也能根据任务状态避免重复扣费。

五、成本和稳定性建议

图像接口的成本通常比纯文本更敏感，尤其是批量海报、商品图这种需求。几个经验：

先用 GPT5.5 压缩和规范 prompt，减少无效出图。
开发、预览、批量草稿默认用标准质量。
高质量只给最终确认、付费用户或重点任务使用。
失败重试要有上限，并把错误原因展示给运营人员。
图片生成完成后尽快转存自己的对象存储，不要长期依赖临时 URL。

稳定性方面，建议在后端加超时控制，例如 60 到 120 秒。前端不要一直等待接口返回，可以先创建任务，返回任务 ID，再轮询任务状态。这样即使生成时间变长，页面也不会卡死。

六、常见问题排查

1. 返回 400

优先检查 JSON 格式、模型名、尺寸、质量参数。很多 400 不是服务不可用，而是字段写错。例如把gpt-image-2写成了别的形式，或者传了接口不支持的尺寸。

2. 图片风格不稳定

检查 prompt 是否每次都过于随意。建议固定模板：主体、场景、风格、光线、构图、限制项。比如“不要文字、不要水印、不要多余人物”这类约束可以放在末尾。

3. 批量任务偶发超时

先看并发数。图片接口不适合无脑高并发，建议从 2 到 5 个并发开始压测，再逐步增加。队列里要记录开始时间、结束时间、重试次数和最终状态。

4. 返回 URL 但下载失败

检查服务端是否能访问图片地址，是否被公司网络或代理限制。生产环境建议后端拿到 URL 后立即下载并上传到自己的存储，再把自有 URL 返回给前端。

总结

GPT5.5+GPT-Image-2 合一中转的关键，不只是把两个模型接起来，而是把 prompt 整理、图像参数、批量队列、失败重试和成本控制一起设计好。先用小尺寸、标准质量、低并发跑通链路，再逐步开放更高质量和批量能力，整体会稳很多。

支持 GPT5.5+GPT-Image-2 合一中转