低代码玩转多模态！用Stable Diffusion+LLM搭建图文生成平台，小白也能上手-平芜编程栈

朋友，可以转载，但请注明出处，谢谢！
http://blog.csdn.net/jiangjunshow

最近是不是被各种AI生成的图文内容刷屏了？不管是小红书上的氛围感穿搭图+走心文案，还是公众号里的科普长图+趣味解读，甚至是电商平台的商品主图+卖点提炼，全是AI的杰作！作为常年泡在CSDN的技术人，我必须得说：现在搞AI真的不用死磕高数和复杂编程了，低代码就能玩转多模态！

今天就给大家带来一篇保姆级教程——用Stable Diffusion+LLM搭建专属图文生成平台，全程口语化讲解，代码直接复制粘贴就能用，哪怕你是刚入门的小白，跟着走也能一次成功！最后还会分享怎么把这个平台做成可落地的小项目，不管是练手还是赚点零花钱都香！

一、先搞懂：啥是多模态图文生成？为啥用Stable Diffusion+LLM？

可能有兄弟会问：“多模态”听着挺玄乎，到底是啥意思？其实特简单——就是AI能同时处理文字和图片两种信息，还能互相转换。比如你输入一句“阳光沙滩上的柯基犬戴着墨镜啃西瓜”，AI既能生成对应的图片，还能自动给图片配一段搞笑文案，这就是多模态图文生成。

那为啥选Stable Diffusion和LLM搭配呢？

Stable Diffusion：这可是AI绘图界的“顶流”，生成图片的质量高、速度快，关键是开源免费，还支持各种插件扩展，小白也能轻松调用。
LLM（大语言模型）：比如ChatGLM、Llama这些，擅长理解文字和生成文案。用它来解析用户的文字需求，再给生成的图片写解说、配标题，完美弥补Stable Diffusion在文字处理上的短板。

两者结合起来，就是“1+1＞2”：LLM负责“听懂需求、写好文案”，Stable Diffusion负责“画好图片”，一个完整的图文生成平台就有了核心骨架。而且全程不用写复杂算法，调用现成的API和开源库就行，低代码yyds！

二、准备工作：3步搞定环境搭建，零门槛上手

在开始之前，咱们得先把“工具”备齐。我已经把复杂的环境配置简化到极致，不管你用Windows还是Mac，跟着做就行：

1. 核心工具清单（全免费）

编程环境：Python 3.8~3.10（别用太高版本，避免兼容性问题）
代码编辑器：VS Code（随便装个中文版，看着舒服）
核心库：diffusers（Stable Diffusion官方库）、transformers（LLM调用库）、gradio（快速搭建可视化界面）、torch（深度学习基础库）
额外依赖：pillow（处理图片）、requests（网络请求）

2. 环境安装（复制命令直接运行）

打开VS Code的终端，依次输入以下命令，等待安装完成就行。如果安装慢，就换国内镜像源（后面会说）：

# 先升级pip（避免安装失败）pip install--upgrade pip# 安装核心库（一行搞定，省心）pip install diffusers transformers gradio torch pillow requests# 如果你安装慢，用国内镜像源（豆瓣源yyds）pip install diffusers transformers gradio torch pillow requests-i https://pypi.doubanio.com/simple/

3. 关键资源准备（不用手动下载，代码自动拉取）

Stable Diffusion模型：我们用官方的“runwayml/stable-diffusion-v1-5”，这是最稳定、生成效果最好的基础模型，代码会自动下载，不用自己找资源。
LLM模型：用“THUDM/chatglm-6b-int4”，这是清华大学开源的轻量模型，占用内存小（4G左右就能跑），生成文案自然，适合小白入门。

这里插一句：如果你的电脑没有独立显卡（GPU），也能跑！就是生成图片会慢一点（大概1-2分钟一张），如果有N卡（NVIDIA），可以提前装个CUDA，速度能快3-5倍，具体怎么装，后面会附简易教程。

三、核心代码：50行搞定图文生成，复制粘贴就能用

环境搭好后，咱们直接上核心代码！全程只有50多行，每一行都加了注释，看不懂也没关系，先跑起来再说：

# 导入需要的库importgradioasgrfromdiffusersimportStableDiffusionPipelinefromtransformersimportAutoModelForCausalLM,AutoTokenizerimporttorch# ---------------------- 初始化模型 ----------------------# 1. 初始化Stable Diffusion（图片生成模型）# 用GPU加速，如果没有GPU，把"cuda"改成"cpu"device="cuda"iftorch.cuda.is_available()else"cpu"sd_pipeline=StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5",# 基础模型torch_dtype=torch.float16ifdevice=="cuda"elsetorch.float32,safety_checker=None# 关闭安全检查（避免误判正常内容）).to(device)# 2. 初始化LLM（文案生成模型）tokenizer=AutoTokenizer.from_pretrained("THUDM/chatglm-6b-int4",trust_remote_code=True)llm_model=AutoModelForCausalLM.from_pretrained("THUDM/chatglm-6b-int4",trust_remote_code=True).to(device)llm_model=llm_model.eval()# 切换到评估模式，提升运行速度# ---------------------- 核心功能函数 ----------------------# 1. 图片生成函数：输入文字描述，输出图片defgenerate_image(prompt,negative_prompt="low quality, blurry, ugly"):""" prompt: 正面描述（比如"阳光沙滩上的柯基犬"） negative_prompt: 负面描述（避免生成低质量图片） """image=sd_pipeline(prompt=prompt,negative_prompt=negative_prompt,height=512,# 图片高度（512是基础尺寸，效果最好）width=512,# 图片宽度num_inference_steps=50,# 生成步数（越高越清晰，50步足够）guidance_scale=7.5# 相关性系数（越高越贴合prompt，7.5是黄金值）).images[0]returnimage# 2. 文案生成函数：输入图片描述，输出配套文案defgenerate_caption(prompt):"""根据图片的文字描述，生成配套文案"""# 给LLM写提示词，让它生成合适的文案（可以自己改风格）llm_prompt=f"请为一张描述为'{prompt}'的图片，写一段20-50字的朋友圈文案，风格活泼有趣，带点网络热词："response=llm_model.generate(input_ids=tokenizer.encode(llm_prompt,return_tensors="pt").to(device),max_new_tokens=100,# 最大生成字数temperature=0.7,# 随机性（越低越稳定，越高越有创意）do_sample=True)caption=tokenizer.decode(response[0],skip_special_tokens=True).replace(llm_prompt,"")returncaption# 3. 整合图文生成：一次输入，同时输出图片和文案deftext_to_image_and_caption(prompt,negative_prompt="low quality, blurry, ugly"):image=generate_image(prompt,negative_prompt)caption=generate_caption(prompt)returnimage,caption# ---------------------- 搭建可视化界面 ----------------------withgr.Blocks(title="多模态图文生成平台")asdemo:gr.Markdown("# 🎨 低代码多模态图文生成平台")gr.Markdown("输入文字描述，一键生成图片+配套文案，小白也能轻松上手！")# 输入区域withgr.Row():prompt=gr.Textbox(label="📝 文字描述",placeholder="请输入你想生成的内容（比如：粉色头发的女孩在星空下弹吉他）",lines=3)negative_prompt=gr.Textbox(label="❌ 负面描述（可选）",placeholder="输入你不想生成的内容（比如：低质量、模糊、变形）",lines=2,value="low quality, blurry, ugly, deformed")# 按钮区域generate_btn=gr.Button("🚀 开始生成",variant="primary")# 输出区域withgr.Row():image_output=gr.Image(label="🖼️ 生成图片",type="pil")caption_output=gr.Textbox(label="✍️ 配套文案",lines=3)# 绑定功能generate_btn.click(fn=text_to_image_and_caption,inputs=[prompt,negative_prompt],outputs=[image_output,caption_output])# 启动服务（默认端口7860，打开浏览器访问 http://localhost:7860 即可使用）if__name__=="__main__":demo.launch(server_name="0.0.0.0",# 允许局域网访问（别人也能连你的电脑用）server_port=7860,# 端口号（可以改成8080、8888等）share=False# 要不要生成公共链接（True会生成临时链接，别人能远程用）)

代码运行说明（重点！）

复制上面的代码，在VS Code里新建一个Python文件（比如“text_image_generator.py”），粘贴进去。
点击运行按钮（或者在终端输入“python text_image_generator.py”）。
运行成功后，会出现一个链接（http://localhost:7860），复制到浏览器打开，就能看到可视化界面了。
输入文字描述（比如“冬天里围着围巾的猫咪在壁炉旁看书”），点击“开始生成”，等待10-60秒（看电脑配置），就能得到图片和文案！

这里给大家避个坑：如果运行时提示“内存不足”，大概率是LLM模型太大了。可以把“THUDM/chatglm-6b-int4”换成更小的模型“THUDM/chatglm-6b-int8”，或者直接用“ernie-3.0-mini-zh”（百度开源的轻量模型），修改代码里的模型名称就行，其他不用动。

四、功能优化：3个小技巧，让你的平台更实用

跑通基础版本后，咱们可以做几个简单的优化，让生成效果更好、功能更全，完全能满足日常使用：

1. 增加图片风格选择（比如卡通、写实、油画）

修改generate_image函数，在prompt里自动添加风格关键词，代码如下：

# 新增风格选择参数defgenerate_image(prompt,style="写实",negative_prompt="low quality, blurry, ugly"):# 定义不同风格的关键词style_keywords={"写实":"photorealistic, ultra detailed, 8k","卡通":"cartoon, anime style, flat colors, line art","油画":"oil painting, brush strokes, vibrant colors","水彩":"watercolor painting, soft colors, transparent","赛博朋克":"cyberpunk, neon lights, futuristic, rain"}# 把风格关键词加入promptfull_prompt=f"{prompt},{style_keywords[style]}"image=sd_pipeline(prompt=full_prompt,negative_prompt=negative_prompt,height=512,width=512,num_inference_steps=50,guidance_scale=7.5).images[0]returnimage# 同时修改界面，增加风格选择下拉框withgr.Blocks(title="多模态图文生成平台")asdemo:gr.Markdown("# 🎨 低代码多模态图文生成平台")gr.Markdown("输入文字描述，一键生成图片+配套文案，小白也能轻松上手！")withgr.Row():prompt=gr.Textbox(label="📝 文字描述",placeholder="请输入你想生成的内容（比如：粉色头发的女孩在星空下弹吉他）",lines=3)withgr.Column():style=gr.Dropdown(label="🎨 图片风格",choices=["写实","卡通","油画","水彩","赛博朋克"],value="写实")negative_prompt=gr.Textbox(label="❌ 负面描述（可选）",placeholder="输入你不想生成的内容（比如：低质量、模糊、变形）",lines=2,value="low quality, blurry, ugly, deformed")generate_btn=gr.Button("🚀 开始生成",variant="primary")withgr.Row():image_output=gr.Image(label="🖼️ 生成图片",type="pil")caption_output=gr.Textbox(label="✍️ 配套文案",lines=3)generate_btn.click(fn=text_to_image_and_caption,inputs=[prompt,style,negative_prompt],# 新增style输入outputs=[image_output,caption_output])

这样一来，你就能生成不同风格的图片了，比如想做卡通头像就选“卡通”风格，想做产品宣传图就选“写实”风格，实用性直接拉满！

2. 支持文案风格切换（朋友圈、小红书、电商文案）

修改generate_caption函数，让LLM能生成不同风格的文案，代码如下：

defgenerate_caption(prompt,caption_style="朋友圈"):""" caption_style: 文案风格，可选"朋友圈"、"小红书"、"电商" """style_prompts={"朋友圈":f"请为一张描述为'{prompt}'的图片，写一段20-50字的朋友圈文案，风格活泼有趣，带点网络热词，不用太正式：","小红书":f"请为一张描述为'{prompt}'的图片，写一段50-80字的小红书文案，开头吸引人，中间带emoji，结尾加相关话题标签：","电商":f"请为一张描述为'{prompt}'的图片，写一段30-60字的电商商品文案，突出产品卖点，语言简洁有吸引力，适合用于商品详情页："}llm_prompt=style_prompts[caption_style]response=llm_model.generate(input_ids=tokenizer.encode(llm_prompt,return_tensors="pt").to(device),max_new_tokens=150,temperature=0.7,do_sample=True)caption=tokenizer.decode(response[0],skip_special_tokens=True).replace(llm_prompt,"")returncaption# 界面上增加文案风格下拉框withgr.Row():prompt=gr.Textbox(label="📝 文字描述",placeholder="请输入你想生成的内容（比如：粉色头发的女孩在星空下弹吉他）",lines=3)withgr.Column():style=gr.Dropdown(label="🎨 图片风格",choices=["写实","卡通","油画","水彩","赛博朋克"],value="写实")caption_style=gr.Dropdown(label="✍️ 文案风格",choices=["朋友圈","小红书","电商"],value="朋友圈")negative_prompt=gr.Textbox(label="❌ 负面描述（可选）",placeholder="输入你不想生成的内容（比如：低质量、模糊、变形）",lines=2,value="low quality, blurry, ugly, deformed")# 绑定函数时加入caption_style输入generate_btn.click(fn=text_to_image_and_caption,inputs=[prompt,style,caption_style,negative_prompt],outputs=[image_output,caption_output])

现在你生成的文案可以直接用在不同平台了！比如做电商带货，就选“电商”风格，文案会自动突出卖点；想发小红书引流，就选“小红书”风格，自带emoji和话题标签，省心又高效。

3. 增加图片下载功能（一键保存高清图）

Gradio的Image组件默认支持下载，但是我们可以优化一下，让用户能直接下载带文案的图片（比如把文案叠加在图片上），修改代码如下：

fromPILimportImageDraw,ImageFont# 新增：在图片上添加文案defadd_caption_to_image(image,caption):# 设置字体（如果没有默认字体，可以替换成自己电脑上的字体路径）try:font=ImageFont.truetype("arial.ttf",24)# Windows默认字体except:try:font=ImageFont.truetype("/System/Library/Fonts/PingFang.ttc",24)# Mac默认字体except:font=ImageFont.load_default(size=24)# fallback字体# 创建可编辑的图片副本image_with_caption=image.copy()draw=ImageDraw.Draw(image_with_caption)# 设置文案位置（底部居中）text_width,text_height=draw.textsize(caption,font=font)x=(image.width-text_width)//2y=image.height-text_height-20# 距离底部20像素# 绘制文案（黑色字体，白色背景，增加可读性）draw.rectangle([x-10,y-10,x+text_width+10,y+text_height+10],fill="white")draw.text((x,y),caption,font=font,fill="black")returnimage_with_caption# 修改整合函数，返回带文案的图片deftext_to_image_and_caption(prompt,style="写实",caption_style="朋友圈",negative_prompt="low quality, blurry, ugly"):image=generate_image(prompt,style,negative_prompt)caption=generate_caption(prompt,caption_style)image_with_caption=add_caption_to_image(image,caption)returnimage_with_caption,caption

这样一来，用户生成图片后，下载的就是带文案的完整版本，直接就能用在各种平台，不用再手动编辑图片，体验感瞬间提升！

五、落地场景：这个平台能用来做啥？（附变现思路）

很多兄弟学技术，最终还是想落地应用或者赚点钱，这个图文生成平台的用法可太多了，给大家分享几个常见场景：

1. 自媒体辅助工具

如果你做小红书、抖音、公众号自媒体，每天都需要大量图文素材。用这个平台，输入“夏日穿搭碎花连衣裙海边背景”，一键生成图片+小红书文案，再稍微修改一下，就能直接发布，每天能节省2-3小时的素材制作时间。

2. 电商商家必备

淘宝、拼多多、抖音电商的商家，需要给商品拍图、写文案。用这个平台，输入“复古风马克杯陶瓷材质手绘花纹下午茶场景”，生成写实风格的图片+电商文案，不用花钱请摄影师和文案策划，小成本就能搞定商品详情页素材。

3. 个人娱乐/礼物制作

想给朋友做个性化礼物？输入“朋友的名字+喜欢的动漫角色+生日祝福”，生成卡通风格的图片+祝福文案，打印出来做成明信片、相框，既有心意又独特。平时自己想发朋友圈，苦于没有配图和文案，用它一键生成，朋友圈点赞量都能翻倍！

4. 小副业变现

如果你技术稍微好一点，可以把这个平台打包成小工具，卖给有需要的人（比如自媒体、小商家），定价99-199元/份，提供安装和售后指导。或者在闲鱼、淘宝上接单，帮别人生成图文素材，一张图+文案收费5-10元，每天接10单，月入几千块不成问题！

六、进阶技巧：想让生成效果更惊艳？试试这2招

如果你的电脑配置还不错（有3060以上的N卡），可以试试这两个进阶技巧，生成的图片和文案质量会更上一层楼：

1. 更换更好的模型

Stable Diffusion模型：可以换成“LyCORIS”、“Anything”等专用模型，生成的图片更有特色（比如动漫风格更逼真）。
LLM模型：可以换成“ChatGLM2-6B”、“Llama 2”等更强大的模型，生成的文案逻辑更清晰、风格更多样。

更换模型的方法很简单，只需要修改代码里的模型名称，比如把“runwayml/stable-diffusion-v1-5”改成你想使用的模型名称，代码会自动下载。

2. 增加图片分辨率

默认生成的图片是512x512像素，如果你想生成高清图（比如1024x1024），可以修改generate_image函数里的height和width参数，同时增加num_inference_steps（比如改成70），生成的图片会更清晰，但是运行时间会稍微长一点。

七、重要提醒：虽然低代码能上手，但基础很重要！

看到这里，可能有兄弟会说：“原来AI这么简单，不用懂基础知识也能开发应用！” 确实，现在的开源工具和API让我们能快速实现各种AI功能，不用再从零开始写算法。

但是我必须得说一句：虽然不懂AI基础知识也能开发AI应用，但是懂的人往往可以开发出更复杂更优秀的AI高级应用。如果你对AI基础知识感兴趣，可以看看我的人工智能入门教程http://blog.csdn.net/jiangjunshow。

这套教程是我花了十多年时间，结合自己在国内外的学习和工作经验编写的，全程通俗易懂，不用高数基础，高中水平就能学。里面涵盖了人工智能的核心原理、机器学习、神经网络等基础知识，还有大量实战案例，学完之后，你不仅能玩转低代码工具，还能自己修改模型、优化算法，开发出更有竞争力的AI应用，不管是求职加薪还是创业，都能更有优势！