DeepSeek-R1-Distill-Qwen-1.5B部署教程：AWS EC2实例配置-平芜编程栈

DeepSeek-R1-Distill-Qwen-1.5B部署教程：AWS EC2实例配置

1. 引言

1.1 学习目标

本文旨在为开发者提供一份完整的DeepSeek-R1-Distill-Qwen-1.5B模型在 AWS EC2 实例上的部署指南。通过本教程，您将掌握：

如何选择合适的 AWS EC2 实例类型以支持大模型推理
配置 GPU 环境与依赖库（CUDA、vLLM）
使用 vLLM 启动并托管 DeepSeek 蒸馏版模型服务
通过 OpenAI 兼容接口调用模型进行对话测试

完成本教程后，您将能够快速搭建一个高性能、低延迟的轻量化大模型推理服务，适用于边缘场景或成本敏感型 AI 应用。

1.2 前置知识

建议读者具备以下基础：

熟悉 Linux 命令行操作
了解 Python 编程和 REST API 基本概念
对 LLM 推理框架（如 vLLM）有初步认知

2. DeepSeek-R1-Distill-Qwen-1.5B 模型介绍

DeepSeek-R1-Distill-Qwen-1.5B是由 DeepSeek 团队基于 Qwen2.5-Math-1.5B 基础模型，结合 R1 架构优势，采用知识蒸馏技术训练而成的高效轻量级语言模型。其设计目标聚焦于高精度保留、低资源消耗、强垂直领域适配性。

2.1 核心特性

参数效率优化

通过结构化剪枝与量化感知训练（QAT），该模型成功将参数压缩至1.5B规模，同时在 C4 数据集上保持了原始模型85% 以上的语言建模精度。相比原生 Qwen 系列模型，显著降低了显存占用和推理延迟。

任务适配增强

在蒸馏过程中引入了大量领域特定数据，包括法律文书、医疗问诊记录等专业语料，使得模型在垂直场景下的表现大幅提升：

法律条款理解 F1 提升约 13%
医疗问答准确率提升 12.7%

硬件友好性

支持 INT8 量化部署，内存占用较 FP32 模式降低75%，可在 NVIDIA T4 或 A10G 等中低端 GPU 上实现实时推理（<500ms 延迟），非常适合云边协同架构中的边缘节点部署。

3. AWS EC2 实例准备与环境配置

3.1 实例选型建议

为确保模型稳定运行，推荐使用具备以下特性的 EC2 实例：

特性	推荐配置
实例类型	`g4dn.xlarge`/`g5.large`/`p3.2xlarge`
GPU 显存	≥ 16GB（T4/A10G/V100）
CPU 核心数	≥ 4 核
内存	≥ 32GB
存储空间	≥ 50GB SSD（用于缓存模型权重）

提示：对于生产环境，建议使用g5.2xlarge及以上规格，并启用 EBS 加速。

3.2 连接实例并更新系统

# SSH 登录实例 ssh -i your-key.pem ubuntu@your-ec2-public-ip # 更新包管理器 sudo apt update && sudo apt upgrade -y

3.3 安装 NVIDIA 驱动与 CUDA

# 添加 NVIDIA 驱动仓库 sudo ubuntu-drivers autoinstall # 安装 CUDA Toolkit（以 12.1 为例） wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /" sudo apt-get update sudo apt-get -y install cuda-toolkit-12-1

重启实例后验证驱动安装：

nvidia-smi

预期输出包含 GPU 型号及驱动版本信息。

3.4 创建虚拟环境并安装依赖

# 安装 Miniconda wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh source ~/.bashrc # 创建 Python 环境 conda create -n deepseek python=3.10 -y conda activate deepseek # 安装 PyTorch 与 vLLM pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 pip install vllm==0.4.2 pip install jupyterlab openai requests

4. 使用 vLLM 启动 DeepSeek-R1-Distill-Qwen-1.5B 模型服务

4.1 下载模型权重（可选）

若需本地加载，请先从 Hugging Face 或官方渠道下载模型：

huggingface-cli login git lfs install git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

注意：模型文件较大（约 3GB FP16），请确保磁盘空间充足。

4.2 启动 vLLM 服务

创建启动脚本start_vllm.sh：

#!/bin/bash export CUDA_VISIBLE_DEVICES=0 export VLLM_USE_MODELSCOPE=False python -m vllm.entrypoints.openai.api_server \ --host 0.0.0.0 \ --port 8000 \ --model deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \ --tensor-parallel-size 1 \ --dtype half \ --quantization awq \ # 若使用量化版本 --max-model-len 4096 \ --gpu-memory-utilization 0.9 \ --enforce-eager \ > deepseek_qwen.log 2>&1 &

赋予执行权限并运行：

chmod +x start_vllm.sh ./start_vllm.sh

说明：
--dtype half：使用 FP16 精度，节省显存
--quantization awq：若使用 AWQ 量化模型，可进一步降低显存至 6GB 以内
--enforce-eager：避免 CUDA graph 冷启动问题

5. 查看模型服务是否启动成功

5.1 进入工作目录

cd /root/workspace

5.2 查看启动日志

cat deepseek_qwen.log

当出现如下关键日志时，表示服务已成功启动：

INFO: Started server process [PID] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

此外，可通过nvidia-smi观察 GPU 显存占用情况，确认模型已加载进显存。

6. 测试模型服务部署是否成功

6.1 启动 Jupyter Lab（可选）

nohup jupyter lab --ip=0.0.0.0 --port=8888 --allow-root --no-browser > jupyter.log 2>&1 &

访问http://<your-ec2-ip>:8888并输入 token 登录。

6.2 调用模型进行测试

以下是一个完整的 Python 客户端示例，用于测试模型的基础对话能力与流式输出功能。

from openai import OpenAI import requests import json class LLMClient: def __init__(self, base_url="http://localhost:8000/v1"): self.client = OpenAI( base_url=base_url, api_key="none" # vLLM 不需要真实 API Key ) self.model = "DeepSeek-R1-Distill-Qwen-1.5B" def chat_completion(self, messages, stream=False, temperature=0.7, max_tokens=2048): """基础的聊天完成功能""" try: response = self.client.chat.completions.create( model=self.model, messages=messages, temperature=temperature, max_tokens=max_tokens, stream=stream ) return response except Exception as e: print(f"API调用错误: {e}") return None def stream_chat(self, messages): """流式对话示例""" print("AI: ", end="", flush=True) full_response = "" try: stream = self.chat_completion(messages, stream=True) if stream: for chunk in stream: if chunk.choices[0].delta.content is not None: content = chunk.choices[0].delta.content print(content, end="", flush=True) full_response += content print() # 换行 return full_response except Exception as e: print(f"流式对话错误: {e}") return "" def simple_chat(self, user_message, system_message=None): """简化版对话接口""" messages = [] if system_message: messages.append({"role": "system", "content": system_message}) messages.append({"role": "user", "content": user_message}) response = self.chat_completion(messages) if response and response.choices: return response.choices[0].message.content return "请求失败" # 使用示例 if __name__ == "__main__": # 初始化客户端 llm_client = LLMClient() # 测试普通对话 print("=== 普通对话测试 ===") response = llm_client.simple_chat( "请用中文介绍一下人工智能的发展历史", "你是一个有帮助的AI助手" ) print(f"回复: {response}") print("\n=== 流式对话测试 ===") messages = [ {"role": "system", "content": "你是一个诗人"}, {"role": "user", "content": "写两首关于秋天的五言绝句"} ] llm_client.stream_chat(messages)

预期输出示例

正常调用应返回类似以下内容：

=== 普通对话测试 === 回复: 人工智能起源于20世纪50年代... === 流式对话测试 === AI: 秋风扫落叶，寒鸦栖古枝。 霜月映山川，孤舟泛清漪。 ...

7. DeepSeek-R1 系列使用建议

为充分发挥模型性能，建议遵循以下最佳实践：

7.1 温度设置

将生成温度控制在0.5–0.7之间（推荐 0.6），可有效防止输出重复或逻辑断裂。过高温度可能导致发散，过低则缺乏创造性。

7.2 提示工程规范

避免使用系统提示：所有指令应直接嵌入用户消息中。
数学问题引导：添加提示：“请逐步推理，并将最终答案放在\boxed{}内。”
强制思维链触发：部分查询可能跳过推理过程（表现为输出\n\n）。建议在 prompt 开头加入换行符\n以激活深度思考模式。

7.3 性能评估方法

多次运行取平均值，减少随机性影响
使用标准化 benchmark（如 MMLU、C-Eval）进行横向对比
记录 P95 推理延迟与吞吐量（tokens/s）

8. 总结

8.1 关键收获回顾

本文详细介绍了如何在 AWS EC2 实例上部署DeepSeek-R1-Distill-Qwen-1.5B模型，涵盖从实例选型、环境配置、vLLM 服务启动到客户端调用的全流程。核心要点包括：

选用 T4/A10G 类 GPU 实例即可满足轻量化模型部署需求
利用 vLLM 的 OpenAI 兼容接口实现高性能批处理与流式响应
通过 AWQ 量化进一步降低显存占用，提升边缘部署可行性
遵循官方提示策略可显著提升输出质量与稳定性

8.2 下一步建议

尝试将服务封装为 Flask/FastAPI 微服务，集成至现有系统
配置 NGINX + HTTPS 实现安全外网访问
结合 LangChain 构建智能 Agent 应用
探索 LoRA 微调以适配更具体的业务场景

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek-R1-Distill-Qwen-1.5B部署教程：AWS EC2实例配置