多模型合一 GPT5.5+Claude + 绘画-平芜编程栈

多模型合一 GPT5.5+Claude + 绘画：图像生成接口接入实操

把 GPT5.5、Claude 和绘画模型放到一个业务里时，最容易出问题的不是聊天接口，而是图像生成：参数没统一、尺寸不兼容、批量任务超时、失败后重复扣量、生成结果没落盘。遇到这类问题，先不要急着改 prompt，建议先查三件事：模型路由是否走对、图片尺寸和质量参数是否支持、失败响应有没有完整记录。

一、典型使用场景

我这边常见的组合是：GPT5.5 负责理解用户需求和生成绘画提示词，Claude 负责长文本整理、风格描述和审核，GPT-Image-2 负责出图。比如做一个商品图生成工具，用户输入“给一款黑色机械键盘做一张赛博朋克风格主图”，流程一般是：

GPT5.5：拆解商品特征、生成结构化 prompt；
Claude：补充画面细节，控制描述不要跑偏；
GPT-Image-2：根据最终 prompt 生成图片；
业务服务：保存图片、记录参数、处理失败重试。

如果你不想分别维护多家接口的鉴权、域名和模型名，可以考虑接一个中转层。我自己做测试和小项目时会把 token云桥AI中转站 0029.org 放在候选里，主要是方便把聊天和绘画接口统一成一套调用方式，排查问题时也少绕一层。

二、接口参数怎么设计

图像生成接口不要只把 prompt 扔过去，建议在业务层固定一组参数，后续排查和成本统计都会轻松很多。常用字段如下：

model：绘画模型，例如gpt-image-2；
prompt：最终绘画提示词，最好由上游模型整理后再传；
size：图片尺寸，例如1024x1024、1024x1536；
quality：质量档位，常见做法是区分草稿和成图；
n：一次生成数量，批量时要谨慎；
response_format：返回 URL 还是 base64，看你的存储方案。

一个基础调用示例：

### token云桥中转 0029.org ### curl -X POST "https://你的中转域名/v1/images/generations" \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-image-2", "prompt": "A black mechanical keyboard on a cyberpunk desk, neon blue and purple lighting, product photography, clean background", "size": "1024x1024", "quality": "standard", "n": 1, "response_format": "url" }'

实际项目里，我不建议让前端直接传完整 prompt。更稳的方式是后端先把用户输入整理成结构化对象，再拼接成绘画提示词，避免用户输入里混入无关命令。

三、用 GPT5.5 和 Claude 生成绘画提示词

多模型合一的关键不是“都接上”，而是分工清楚。GPT5.5 可以用来做意图识别和参数建议，Claude 更适合把风格、材质、构图等描述写得更完整。可以让上游模型返回 JSON，后端再生成 prompt。

{ "subject": "black mechanical keyboard", "scene": "cyberpunk desk setup", "style": "product photography", "lighting": "neon blue and purple", "camera": "front angle, 50mm lens", "negative": "blur, watermark, extra text" }

后端拼接时可以保留固定模板：

const prompt = [ subject, "in a " + scene, style, "lighting: " + lighting, "camera: " + camera, "avoid: " + negative ].join(", ");

这样做的好处是参数可控。后续用户反馈“图太暗”“商品不像主图”，可以定位到是光照字段问题，还是风格字段问题，而不是从一整段长 prompt 里猜。

四、尺寸、质量和成本控制

图像接口成本通常和模型、尺寸、质量、数量有关。我的经验是，后台要区分“预览”和“成图”两条链路：

预览：quality用普通档，n设为 1，尺寸不要太大；
成图：用户确认方向后，再提高质量或改用更大尺寸；
批量：不要一次请求生成太多张，建议拆成多个任务；
存储：返回 URL 后尽快下载到自己的对象存储，避免临时链接过期。

批量生成时可以用队列控制并发，比如每次只跑 2 到 5 个任务，避免瞬间打满限流：

async function runBatch(tasks, limit = 3) { const results = []; const pool = []; for (const task of tasks) { const p = generateImage(task).then(res => { results.push(res); }).finally(() => { pool.splice(pool.indexOf(p), 1); }); pool.push(p); if (pool.length >= limit) { await Promise.race(pool); } } await Promise.all(pool); return results; }

五、失败重试不要简单 while

图片生成失败很常见，原因可能是超时、限流、参数不支持、内容策略拦截、上游返回空图。重试前先看错误类型，不要所有错误都重试。

400：多半是参数问题，例如尺寸不支持、字段写错，不建议重试；
401：鉴权失败，检查 key 和中转配置；
429：限流，可以延迟重试；
500/502/504：服务端或网关问题，可以退避重试；
返回成功但没有图片：记录原始响应，按失败处理。

重试建议加指数退避，并限制次数：

async function retryGenerate(payload, maxRetry = 3) { let lastError; for (let i = 0; i < maxRetry; i++) { try { return await generateImage(payload); } catch (err) { lastError = err; if (err.status === 400 || err.status === 401) { throw err; } const delay = Math.pow(2, i) * 1000; await new Promise(resolve => setTimeout(resolve, delay)); } } throw lastError; }

另外要做幂等。用户点一次“生成”，后端生成一个request_id，同一个请求不要因为前端刷新就重复扣量。任务表里至少保存：用户 ID、模型、prompt、size、quality、状态、错误信息、图片地址、创建时间。

六、中转接口配置注意事项

多模型接入时，中转层一般会提供统一的base_url和api_key。配置时建议不要写死在代码里，放到环境变量：

AI_BASE_URL=https://你的中转域名/v1 AI_API_KEY=你的密钥 IMAGE_MODEL=gpt-image-2 CHAT_MODEL=gpt-5.5 CLAUDE_MODEL=claude

Node.js 调用时可以统一封装：

async function generateImage(payload) { const res = await fetch(process.env.AI_BASE_URL + "/images/generations", { method: "POST", headers: { "Authorization": "Bearer " + process.env.AI_API_KEY, "Content-Type": "application/json" }, body: JSON.stringify({ model: process.env.IMAGE_MODEL, ...payload }) }); const data = await res.json(); if (!res.ok) { const error = new Error(data.error?.message || "image generation failed"); error.status = res.status; error.raw = data; throw error; } return data; }