DeepSeek-R1-Distill-Qwen-1.5B快速部署：Jupyter Notebook集成教程-平芜编程栈

DeepSeek-R1-Distill-Qwen-1.5B快速部署：Jupyter Notebook集成教程

你是不是也遇到过这样的问题：想在本地跑一个真正能写代码、解数学题、还能当日常助手的大模型，但显卡只有4GB显存？买新卡太贵，云服务又怕按小时计费烧钱？今天要介绍的这个模型，可能就是你一直在找的答案——它只有1.5B参数，却能在RTX 3060上跑出200 tokens/s的速度，数学能力稳稳80+分，手机和树莓派都能装。它不叫“小而美”，它叫“小钢炮”。

这不是概念验证，也不是实验室玩具。它已经通过Apache 2.0协议开源，支持商用，且已预集成vLLM推理引擎和Open WebUI界面。更关键的是：你不需要从零编译、不用改配置文件、甚至不用打开终端敲十行命令——只要几步，就能在Jupyter Notebook里直接调用它，像调用一个Python函数那样自然。

下面我们就从零开始，带你完成一次真正“零门槛”的部署体验。整个过程不需要你理解什么是KV Cache，也不需要你知道vLLM的--tensor-parallel-size怎么设。你只需要知道：下一步点哪里，输入什么，然后——看到结果。

1. 为什么是DeepSeek-R1-Distill-Qwen-1.5B？

在聊怎么部署之前，先说清楚：它到底特别在哪？不是所有1.5B模型都叫“小钢炮”。

1.1 它不是普通蒸馏，而是“推理链蒸馏”

Qwen-1.5B本身已经是个轻量级好手，但DeepSeek团队用80万条高质量R1推理链样本（也就是真实人类一步步推导出答案的过程）对它做了定向蒸馏。这意味着它学到的不只是“答案”，更是“怎么得到答案”。实测推理链保留度达85%，远超同类小模型。你问它“如何证明勾股定理”，它不会只甩给你一个公式，而是真能分步讲清逻辑。

1.2 硬件友好到出乎意料

显存需求极低：fp16完整模型仅占3.0 GB显存；量化成GGUF-Q4后压缩至0.8 GB，连6GB显存的RTX 3060都能轻松跑满速。
边缘设备实测可用：RK3588嵌入式板卡上，1k token推理仅需16秒；苹果A17芯片（iPhone 15 Pro）量化版实测120 tokens/s——这已经接近部分桌面CPU的水平。
上下文够用不鸡肋：4k token长度，支持JSON输出、函数调用和Agent插件，日常写脚本、读技术文档、总结会议纪要完全没问题。

1.3 能力扎实，不靠噱头

别被“1.5B”吓退。它在权威测试集上的表现是硬指标：

测试集	得分	说明
MATH	80+	高中数学竞赛级题目，涵盖代数、几何、组合等
HumanEval	50+	编程题通过率，能正确生成可运行的Python函数
GSM8K	75+	小学数学应用题，考验逻辑拆解与数值计算

这些分数不是“平均分”，而是多次运行取稳定值。更重要的是：它生成的内容可读性强、结构清晰、错误率低——你不需要花半小时去修它的语法或补全它的逻辑漏洞。

2. 一键启动：vLLM + Open WebUI环境准备

我们不走“从源码编译vLLM → 下载模型 → 写启动脚本 → 配置端口 → 解决依赖冲突”的老路。这次用的是预构建镜像方案，全程图形化操作为主，命令行为辅。

2.1 启动前确认你的环境

你只需要满足以下任意一项即可：

一台装有NVIDIA显卡（驱动版本≥525）、CUDA 12.1+、Docker 24.0+ 的Linux或Windows WSL2机器；
或者使用CSDN星图镜像广场提供的在线GPU环境（无需本地安装，开箱即用）；
如果你只有Mac或无独显PC，也可用GGUF格式配合llama.cpp在CPU上运行（速度较慢，但完全可行）。

注意：本文默认你使用的是预置镜像环境（如CSDN星图或Docker镜像），所有依赖、vLLM、Open WebUI均已打包就绪。如果你坚持从源码部署，请跳过本节，直接参考官方GitHub README。

2.2 三步启动服务

打开终端（或镜像平台的Web Terminal），依次执行：

# 1. 拉取并启动服务（自动下载模型、初始化vLLM、启动WebUI） docker run -d \ --gpus all \ --shm-size=1g \ -p 7860:7860 \ -p 8000:8000 \ -v $(pwd)/models:/app/models \ --name deepseek-r1-qwen-1.5b \ csdnai/deepseek-r1-distill-qwen-1.5b:vllm-webui

# 2. 查看启动日志（等待约2–3分钟，直到出现"vLLM engine started"和"Open WebUI ready"） docker logs -f deepseek-r1-qwen-1.5b

# 3. 启动Jupyter服务（复用同一容器，无需额外资源） docker exec -d deepseek-r1-qwen-1.5b bash -c "cd /app && jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root --NotebookApp.token='' --NotebookApp.password=''"

启动成功后，你会得到两个访问地址：

WebUI界面：http://localhost:7860（推荐首次体验）
Jupyter Notebook：http://localhost:8888（本文重点）

提示：如果你已在镜像平台（如CSDN星图）中启动该镜像，通常会自动生成带Token的Jupyter链接。此时只需将URL中的:8888替换为:7860，即可直接访问WebUI，无需额外操作。

2.3 登录WebUI快速验证

打开http://localhost:7860，使用演示账号登录：

用户名：kakajiang@kakajiang.com
密码：kakajiang

进入后，随便输入一个问题试试，比如：

请用Python写一个函数，输入一个正整数n，返回斐波那契数列前n项的列表。

你会发现响应极快，代码格式规范，还附带了简短注释。这不是“能跑”，而是“跑得稳、写得准、看得懂”。

3. Jupyter Notebook深度集成：像调用函数一样使用大模型

这才是本文的核心价值：把大模型变成你Notebook里的一个工具函数，而不是一个独立网页应用。

3.1 连接本地模型API

vLLM默认提供标准OpenAI兼容接口。在Jupyter中新建一个Python Notebook，粘贴以下代码：

# 安装必要库（首次运行时执行） !pip install openai pandas matplotlib import openai import time # 配置为本地vLLM服务 client = openai.OpenAI( base_url="http://localhost:8000/v1", api_key="not-needed" ) # 测试连接 try: response = client.models.list() print(" vLLM API连接成功") print("可用模型：", [m.id for m in response.data]) except Exception as e: print(" 连接失败，请检查vLLM是否启动：", str(e))

运行后，你应该看到类似输出：

vLLM API连接成功 可用模型： ['deepseek-r1-distill-qwen-1.5b']

3.2 构建你的第一个推理单元

现在，我们封装一个简单易用的函数，让它像print()一样顺手：

def ask_llm(prompt, model="deepseek-r1-distill-qwen-1.5b", max_tokens=512): """ 向DeepSeek-R1-Distill-Qwen-1.5B提问 prompt: 字符串，你的问题或指令 model: 模型名称（默认即本模型） max_tokens: 最大生成长度 返回：字符串形式的回答 """ try: response = client.chat.completions.create( model=model, messages=[{"role": "user", "content": prompt}], max_tokens=max_tokens, temperature=0.3, # 降低随机性，提升确定性 top_p=0.9 ) return response.choices[0].message.content.strip() except Exception as e: return f"请求失败：{str(e)}" # 快速测试 print(ask_llm("123 * 456 等于多少？"))

输出应为：

123 * 456 = 56088

成功！你已经绕过所有前端交互，直接在Python环境中调用模型。

3.3 实战：用它辅助代码开发

假设你在写一个数据清洗脚本，但不确定Pandas的drop_duplicates参数怎么用。传统做法是查文档、翻Stack Overflow；现在，你可以在Notebook里直接问：

question = """ 我有一个DataFrame df，包含列['name', 'age', 'city']。 我想根据'name'和'age'两列去重，保留第一次出现的行。 请给出完整的Pandas代码，并解释每个参数含义。 """ answer = ask_llm(question) print(answer)

你会得到一段带注释的、可直接复制粘贴的代码，以及清晰的参数说明。整个过程不到2秒，且无需离开当前开发环境。

3.4 进阶：批量处理+结构化输出

它支持JSON Mode，适合做结构化提取。例如，从一段产品描述中提取规格参数：

prompt = """ 请从以下商品描述中提取品牌、型号、屏幕尺寸、处理器、内存容量，以JSON格式返回，字段名小写，不要额外解释： 「Apple MacBook Air 13英寸 M2芯片，8GB内存，256GB SSD，银色」 """ response = client.chat.completions.create( model="deepseek-r1-distill-qwen-1.5b", messages=[{"role": "user", "content": prompt}], response_format={"type": "json_object"}, temperature=0.1 ) import json data = json.loads(response.choices[0].message.content) print(json.dumps(data, indent=2, ensure_ascii=False))

输出：

{ "brand": "Apple", "model": "MacBook Air 13英寸 M2芯片", "screen_size": "13英寸", "processor": "M2芯片", "memory_capacity": "8GB" }

这种能力让模型真正成为你Notebook里的“智能助手”，而不是“玩具”。

4. 性能调优与实用技巧

虽然它开箱即用，但几个小技巧能让你用得更稳、更快、更准。

4.1 显存不够？试试量化GGUF版本

如果你的显卡只有4GB（如GTX 1650），fp16版可能报OOM。这时切换到GGUF-Q4版本：

# 停止原容器 docker stop deepseek-r1-qwen-1.5b docker rm deepseek-r1-qwen-1.5b # 启动GGUF版（自动加载llama.cpp后端） docker run -d \ --gpus all \ -p 7860:7860 \ -p 8000:8000 \ -v $(pwd)/models:/app/models \ --name deepseek-r1-qwen-1.5b-gguf \ csdnai/deepseek-r1-distill-qwen-1.5b:gguf-q4

启动后API地址不变，但显存占用从3.0 GB降至约1.2 GB，适合长期驻留。

4.2 提升数学/代码能力的小技巧

它强在推理链，所以提示词设计很关键：

不推荐：“解方程 x² + 2x - 3 = 0”
推荐：“请分步求解方程 x² + 2x - 3 = 0：第一步写出判别式，第二步计算根，第三步验证结果。”

加“分步”、“第一步/第二步”等引导词，能显著提升步骤完整性与准确性。

4.3 长文本处理策略

4k上下文虽够用，但处理长文档仍需技巧：

分段摘要：用text.split('\n\n')按段落切分，逐段提问；
关键信息定位：先问“这段文字主要讲了哪三个要点？”，再针对每一点深入；
避免一次性喂入PDF全文（除非你已用PyMuPDF提取纯文本）。

5. 总结：它不是替代品，而是你的“增强智能”

DeepSeek-R1-Distill-Qwen-1.5B的价值，不在于它多大、多炫，而在于它足够小、足够快、足够可靠。它不会取代你写代码，但它能帮你少查10次文档；它不能代替你思考数学题，但它能为你铺好第一块推理砖；它不追求惊艳的多模态效果，却能在你最需要的时候，安静、准确、即时地给出答案。

这一次，我们没讲Transformer结构，没分析注意力机制，也没对比LoRA微调效果。我们只做了一件事：让你在5分钟内，把一个真正能干活的AI助手，接入你每天都在写的Jupyter Notebook里。

它不挑硬件，不卡配置，不设门槛。你唯一要做的，就是打开浏览器，输入那个网址，然后——开始提问。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek-R1-Distill-Qwen-1.5B快速部署：Jupyter Notebook集成教程