DeepSeek-R1-Distill-Qwen-1.5B二次开发指南：app.py定制修改说明-平芜编程栈

DeepSeek-R1-Distill-Qwen-1.5B二次开发指南：app.py定制修改说明

1. 项目背景与目标

你手上有一个性能不错的文本生成模型——DeepSeek-R1-Distill-Qwen-1.5B，它在数学推理、代码生成和逻辑任务上表现突出。现在你想让它不只是跑个demo，而是真正变成你自己的AI服务，比如加个专属UI、改个交互流程、或者集成到现有系统里。

这篇指南就是为你准备的。我们不讲大道理，只聚焦一件事：如何修改app.py文件，完成对这个模型Web服务的二次开发。你会学到怎么调整界面、控制输出、扩展功能，甚至为后续接入API或企业系统打下基础。

整个过程不需要从头写代码，只需要理解现有结构，做针对性改动即可。适合有一定Python基础，想快速把模型“据为己有”的开发者。

2. 核心文件解析：app.py 结构拆解

2.1 整体架构概览

app.py是整个Web服务的入口文件，基于 Gradio 框架搭建。它的核心职责是：

加载本地缓存的 Qwen 1.5B 模型
构建用户交互界面（聊天窗口）
处理输入并调用模型生成响应
返回结果给前端展示

典型的结构分为三部分：模型加载 → 界面定义 → 服务启动。

2.2 关键组件详解

import torch from transformers import AutoTokenizer, AutoModelForCausalLM import gradio as gr # --- 模型加载 --- model_path = "/root/.cache/huggingface/deepseek-ai/DeepSeek-R1-Distill-Qwen-1___5B" tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_path, device_map="auto", torch_dtype=torch.float16, trust_remote_code=True ) # --- 推理函数 --- def respond(message, history): inputs = tokenizer(message, return_tensors="pt").to("cuda") outputs = model.generate( **inputs, max_new_tokens=2048, temperature=0.6, top_p=0.95, do_sample=True ) response = tokenizer.decode(outputs[0], skip_special_tokens=True) return response # --- 界面构建 --- demo = gr.ChatInterface(fn=respond, title="DeepSeek-R1-Distill-Qwen-1.5B") demo.launch(host="0.0.0.0", port=7860, share=False)

上面这段代码虽然短，但五脏俱全。我们逐段来看可以改哪些地方。

3. 常见定制需求与修改方法

3.1 修改默认参数：让输出更可控

原始代码中生成参数写死在respond函数里，不利于调试。我们可以把它改成可配置项。

改造前：

outputs = model.generate( **inputs, max_new_tokens=2048, temperature=0.6, top_p=0.95, do_sample=True )

改造后（支持调节）：

def respond(message, history, temp=0.6, max_len=2048, top_p=0.95): inputs = tokenizer(message, return_tensors="pt").to("cuda") outputs = model.generate( **inputs, max_new_tokens=int(max_len), temperature=float(temp), top_p=float(top_p), do_sample=True ) response = tokenizer.decode(outputs[0], skip_special_tokens=True) return response

然后更新界面，加入滑块控件：

demo = gr.ChatInterface( fn=respond, additional_inputs=[ gr.Slider(0.1, 1.0, value=0.6, label="Temperature"), gr.Slider(512, 4096, value=2048, step=256, label="Max New Tokens"), gr.Slider(0.7, 1.0, value=0.95, label="Top-P") ], title="DeepSeek-R1-Distill-Qwen-1.5B - 可调参版" )

这样用户就能实时调节生成风格了，比如想要严谨回答就把temperature调低，想要创意发散就调高。

3.2 自定义提示词模板（Prompt Engineering）

如果你希望模型每次回答都带上特定语气或格式，可以在输入时自动拼接前缀。

SYSTEM_PROMPT = """你是一个擅长数学推理和代码生成的AI助手。 请逐步思考，给出清晰、准确的回答。 """ def respond(message, history, temp=0.6, max_len=2048, top_p=0.95): full_message = SYSTEM_PROMPT + "\n\n用户：" + message inputs = tokenizer(full_message, return_tensors="pt").to("cuda") # ... 后续生成逻辑不变

这种方式相当于内置了一个“角色设定”，避免每次手动输入指令。

小技巧：也可以通过history参数判断是否是第一轮对话，在首次输入时自动注入系统提示。

3.3 更换主题与UI样式

Gradio 支持多种主题，你可以让界面看起来更专业或更个性化。

demo = gr.ChatInterface( fn=respond, additional_inputs=[...], title="我的专属AI助手", description="基于 DeepSeek-R1-Distill-Qwen-1.5B 打造", theme="soft" # 可选: 'default', 'glass', 'monochrome', 'soft' )

还支持自定义CSS样式（高级用法）：

demo.launch( host="0.0.0.0", port=7860, show_api=False, css=""" .gradio-container { font-family: 'Microsoft YaHei', sans-serif; } .message { border-radius: 8px !important; } """ )

3.4 添加历史记录保存功能

默认情况下刷新页面就会丢失聊天记录。如果想持久化，可以简单地将对话写入日志文件。

import json from datetime import datetime LOG_FILE = "/tmp/deepseek_chat.log" def log_conversation(user_msg, ai_resp): with open(LOG_FILE, "a", encoding="utf-8") as f: record = { "timestamp": datetime.now().isoformat(), "user": user_msg, "assistant": ai_resp } f.write(json.dumps(record, ensure_ascii=False) + "\n")

然后在respond函数末尾加上：

log_conversation(message, response)

未来可以通过分析这些日志优化提示词或评估模型表现。

3.5 集成外部工具调用（Function Calling 初探）

虽然 Qwen 1.5B 本身不支持原生 function calling，但我们可以通过关键词识别实现简易插件机制。

例如，当用户问“计算 5 的阶乘”时，触发本地Python执行：

import re def execute_code(query): match = re.search(r"计算\s*([^\s]+)", query) if match: expr = match.group(1) try: result = eval(expr, {"__builtins__": {}}, {}) return f"计算结果：{result}" except: return "无法执行该计算" return None def respond(message, history, ...): # 先尝试执行代码 code_result = execute_code(message) if code_result: return code_result # 否则走正常生成流程 # ...

这只是一个起点，后续可扩展为真正的工具调用框架。

4. 性能优化与稳定性增强

4.1 启用半精度与显存优化

确保模型以 FP16 加载，减少GPU占用：

model = AutoModelForCausalLM.from_pretrained( model_path, device_map="auto", torch_dtype=torch.float16, # 显式指定 trust_remote_code=True )

如果显存仍不足，可启用bitsandbytes进行量化（需安装）：

pip install bitsandbytes

加载时添加：

from transformers import BitsAndBytesConfig nf4_config = BitsAndBytesConfig(load_in_4bit=True) model = AutoModelForCausalLM.from_pretrained( model_path, quantization_config=nf4_config, device_map="auto", trust_remote_code=True )

4.2 错误处理与降级策略

增加异常捕获，防止服务崩溃：

def respond(message, history, temp=0.6, max_len=2048, top_p=0.95): try: if not message.strip(): return "请输入有效问题。" inputs = tokenizer(message, return_tensors="pt").to("cuda") if inputs.input_ids.shape[1] > 2048: return "输入过长，请精简问题。" outputs = model.generate( **inputs, max_new_tokens=min(int(max_len), 2048), temperature=min(float(temp), 1.0), top_p=max(min(float(top_p), 1.0), 0.1), do_sample=True ) response = tokenizer.decode(outputs[0], skip_special_tokens=True) return response.replace(message, "").strip() except torch.cuda.OutOfMemoryError: return "GPU显存不足，请减少输入长度或关闭其他程序。" except Exception as e: return f"发生错误：{str(e)}"

4.3 支持流式输出（Streaming）

提升用户体验，让文字像打字一样逐字出现。

Gradio 原生支持生成器模式：

def respond(message, history): inputs = tokenizer(message, return_tensors="pt").to("cuda") streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True) generation_kwargs = dict( **inputs, streamer=streamer, max_new_tokens=2048, temperature=0.6, top_p=0.95 ) thread = Thread(target=model.generate, kwargs=generation_kwargs) thread.start() for new_text in streamer: yield new_text

需要额外导入：

from threading import Thread from transformers import TextIteratorStreamer

5. 安全性与生产化建议

5.1 访问限制（IP/密码）

避免公开暴露服务，可通过以下方式加固：

# 设置访问密码 demo.launch(auth=("admin", "your_password"), host="0.0.0.0", port=7860)

或结合 Nginx 做反向代理+IP白名单。

5.2 日志监控与资源限制

使用psutil监控内存使用
设置timeout防止长时间卡顿
限制并发请求数量

5.3 Docker 化部署最佳实践

更新Dockerfile，避免直接拷贝缓存目录：

FROM nvidia/cuda:12.1.0-runtime-ubuntu22.04 RUN apt-get update && apt-get install -y python3.11 python3-pip && rm -rf /var/lib/apt/lists/* WORKDIR /app COPY app.py requirements.txt ./ RUN pip3 install -r requirements.txt # 挂载模型目录（运行时传入） EXPOSE 7860 CMD ["python3", "app.py"]

配合docker-compose.yml统一管理：

version: '3' services: deepseek: build: . ports: - "7860:7860" volumes: - ~/.cache/huggingface:/root/.cache/huggingface deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu]

6. 总结

通过这篇指南，你应该已经掌握了如何对app.py进行实用级别的二次开发。我们覆盖了：

如何调整生成参数并暴露给用户
如何注入系统提示、定制角色行为
如何美化界面、添加日志记录
如何实现简易工具调用和流式输出
如何提升稳定性和安全性

这些修改都不复杂，但组合起来足以让你把这个开源模型变成一个真正可用的私有AI服务。下一步你可以考虑：

将其封装为内部知识问答机器人
接入企业微信或钉钉
结合数据库做记忆增强
构建自动化脚本生成平台

记住，最好的AI应用不是最复杂的，而是最贴合实际需求的。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek-R1-Distill-Qwen-1.5B二次开发指南：app.py定制修改说明