Qwen-Image-2512-ComfyUI代码实例：Python调用API生成图像方法-平芜编程栈

Qwen-Image-2512-ComfyUI代码实例：Python调用API生成图像方法

1. 技术背景与应用场景

随着多模态大模型的快速发展，图像生成技术已从早期的GAN架构逐步演进至基于扩散机制的大规模预训练模型。阿里推出的Qwen-Image-2512-ComfyUI是其通义千问系列在视觉生成领域的最新成果，支持高分辨率（最高达2512×2512）图像生成，具备强大的文本到图像建模能力。

该模型通过与ComfyUI可视化工作流平台深度集成，不仅支持图形化操作，还开放了完整的RESTful API接口，允许开发者通过Python脚本远程调用并实现自动化出图流程。这对于需要批量生成图像、构建AI艺术平台或进行AIGC内容生产的工程团队而言，具有极高的实用价值。

本文将重点介绍如何在本地部署Qwen-Image-2512-ComfyUI镜像后，使用Python程序调用其API接口完成图像生成任务，并提供完整可运行的代码示例和关键参数说明。

2. 环境准备与服务启动

2.1 镜像部署与服务初始化

根据官方提供的部署指南，Qwen-Image-2512-ComfyUI可通过标准Docker镜像一键部署，推荐配置为NVIDIA GPU（如RTX 4090D），单卡即可满足推理需求。

部署完成后，进入容器终端，在/root目录下执行如下命令启动服务：

bash "1键启动.sh"

此脚本会自动加载模型权重、启动ComfyUI主进程并监听默认端口8188。待日志显示Started server at 0.0.0.0:8188后，表示服务已就绪。

2.2 访问ComfyUI界面验证功能

通过算力平台返回的Web链接访问http://<your-host>:8188，进入ComfyUI前端界面。在左侧“工作流”面板中选择“内置工作流”，点击运行可快速生成测试图像，确认模型和服务状态正常。

这一步是确保后续API调用成功的前提条件。若前端无法出图，则需检查GPU驱动、显存占用及模型加载日志。

3. API调用原理与请求结构解析

3.1 ComfyUI API工作机制

ComfyUI 提供了一套基于HTTP的API接口，核心路径如下：

POST /prompt：提交生成任务
GET /history/<client_id>：获取生成历史
GET /queue：查看队列状态
GET /ws：WebSocket实时监听生成进度

所有图像生成请求均以JSON格式提交至/prompt接口，其本质是向后台推送一个包含节点连接关系和参数配置的“工作流”（workflow）。每个节点代表一个处理模块（如CLIP文本编码、VAE解码、采样器等），通过唯一ID标识并传递数据。

3.2 获取标准工作流JSON

最高效的方式是从ComfyUI前端导出已验证的工作流模板：

在网页端加载“内置工作流”
完成一次成功出图
点击菜单 → “Save (API Format)” 保存为.json文件

该文件即为可用于API调用的标准请求体，其中关键字段包括： -"prompt"：主工作流定义 -"extra_data"：附加信息（如种子控制） - 节点类型涵盖："KSampler"、"CLIPTextEncode"、"EmptyLatentImage"等

4. Python调用API实现图像生成

4.1 安装依赖库

使用requests和websockets库实现同步请求与异步状态监听：

pip install requests websockets

4.2 核心调用代码实现

以下为完整可运行的Python脚本，实现从提交提示词到保存结果的全流程：

import requests import json import uuid import time import websocket import urllib.request import urllib.parse # 服务地址配置 SERVER_ADDRESS = "127.0.0.1:8188" CLIENT_ID = str(uuid.uuid4()) # 建立WebSocket连接用于监听生成状态 def connect_websocket(): ws_url = f"ws://{SERVER_ADDRESS}/ws?clientId={CLIENT_ID}" return websocket.create_connection(ws_url) # 加载工作流JSON文件 def load_workflow(json_path): with open(json_path, 'r', encoding='utf-8') as f: return json.load(f) # 更新提示词内容 def update_prompt(workflow, positive_prompt, negative_prompt="", width=1024, height=1024, steps=20): # 查找CLIP Text Encode节点（正向提示词） for node in workflow.values(): if isinstance(node, dict) and node.get("class_type") == "CLIPTextEncode": if "inputs" in node and "text" in node["inputs"]: if "positive" in node["inputs"].get("text", "").lower(): node["inputs"]["text"] = positive_prompt elif "negative" in node["inputs"].get("text", "").lower(): node["inputs"]["text"] = negative_prompt # 设置图像尺寸（查找EmptyLatentImage节点） for node in workflow.values(): if isinstance(node, dict) and node.get("class_type") == "EmptyLatentImage": node["inputs"]["width"] = width node["inputs"]["height"] = height # 设置采样参数（KSampler） for node in workflow.values(): if isinstance(node, dict) and node.get("class_type") == "KSampler": node["inputs"]["steps"] = steps node["inputs"]["seed"] = int(time.time()) # 动态种子 return workflow # 发送生成请求 def queue_prompt(prompt): req = urllib.request.Request(f"http://{SERVER_ADDRESS}/prompt?client_id={CLIENT_ID}") req.add_header('Content-Type', 'application/json') response = urllib.request.urlopen(req, json.dumps(prompt).encode('utf-8')) return json.loads(response.read()) # 获取生成结果 def get_history(prompt_id): while True: req = urllib.request.Request(f"http://{SERVER_ADDRESS}/history/{prompt_id}") try: response = urllib.request.urlopen(req) history = json.loads(response.read()) if prompt_id in history and len(history[prompt_id].get('outputs', {})) > 0: return history[prompt_id] except Exception as e: print(f"[Error] 获取历史失败: {e}") time.sleep(0.5) # 主函数 if __name__ == "__main__": # 加载本地保存的工作流模板 workflow_json = load_workflow("qwen_image_2512_workflow.json") # 自定义提示词与参数 pos_prompt = "a futuristic city at sunset, cyberpunk style, ultra-detailed, 8K resolution" neg_prompt = "blurry, low quality, distorted face" # 更新工作流参数 updated_workflow = update_prompt(workflow_json, pos_prompt, neg_prompt, width=2512, height=2512, steps=25) # 构造最终请求体 request_payload = { "prompt": updated_workflow, "client_id": CLIENT_ID, "prompt_id": str(uuid.uuid4()), "extra_data": {} } # 连接WebSocket监听进度 ws = connect_websocket() # 提交任务 result = queue_prompt(request_payload) prompt_id = result['prompt_id'] print(f"[+] 已提交任务，ID: {prompt_id}") # 实时监听生成状态 while True: out = ws.recv() if isinstance(out, str): message = json.loads(out) if message['type'] == 'executing': data = message['data'] if data['node'] is None and data['prompt_id'] == prompt_id: break # 执行完成 # 获取输出结果 history = get_history(prompt_id) outputs = history['outputs'] # 提取图像URL并下载 for node_id, node_output in outputs.items(): if 'images' in node_output: for img_info in node_output['images']: filename = img_info['filename'] subfolder = img_info['subfolder'] image_url = f"http://{SERVER_ADDRESS}/view?filename={urllib.parse.quote(filename)}&subfolder={urllib.parse.quote(subfolder)}" # 下载图像 img_response = requests.get(image_url) with open(f"output_{int(time.time())}.png", "wb") as f: f.write(img_response.content) print(f"[✓] 图像已保存: output_{int(time.time())}.png")

4.3 关键参数说明

参数	说明
`positive_prompt`	正向提示词，决定图像主体内容
`negative_prompt`	负向提示词，排除不希望出现的元素
`width/height`	支持最大2512×2512，注意显存消耗
`steps`	推荐20~30步，过高可能导致过拟合
`seed`	固定种子可复现结果，设为动态值则每次不同

5. 常见问题与优化建议

5.1 典型错误排查

400 Bad Request：检查JSON格式是否正确，特别是引号闭合与逗号分隔
500 Internal Error：确认模型已完全加载，查看容器日志是否有CUDA OOM报错
无图像返回：验证工作流中是否存在“SaveImage”类节点，否则不会持久化输出
WebSocket断连：网络不稳定时建议增加重试机制

5.2 性能优化建议

批处理优化：对于多图生成任务，可复用同一工作流结构，仅替换提示词字段，减少解析开销。
缓存机制：对高频使用的提示词组合建立缓存索引，避免重复计算。
异步调度：结合Celery或RabbitMQ实现任务队列管理，提升系统吞吐量。
资源监控：使用nvidia-smi实时监控显存使用，防止因OOM导致服务崩溃。

6. 总结

6.1 核心价值回顾

本文详细介绍了如何通过Python调用Qwen-Image-2512-ComfyUI的API接口实现自动化图像生成。该方案结合了阿里开源模型的强大生成能力和ComfyUI灵活的可视化工作流系统，既保证了图像质量，又提供了高度可编程性。

我们实现了从环境部署、工作流提取、参数定制到结果获取的全链路打通，并提供了完整可运行的代码模板，适用于AI绘画平台、广告素材生成、游戏资产创作等多种工业级应用场景。

6.2 最佳实践建议

始终使用导出的API格式工作流，避免手动构造复杂JSON结构；
设置合理的超时与重试机制，增强生产环境下的稳定性；
定期清理输出目录，防止磁盘空间耗尽；
结合前端界面调试后再接入API，降低开发成本。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Qwen-Image-2512-ComfyUI代码实例：Python调用API生成图像方法