本地部署千问72B大模型，解锁无限AI可能！-平芜编程栈

本文提供了一份详尽的教程，指导读者如何在本地免费部署千问72B大语言模型。文章首先介绍了选择本地部署的原因，如节省成本、保护数据隐私等，并详细列出了硬件配置要求。接着，文章推荐了三种部署方案：Ollama（简单易用）、vLLM（高性能）和Text Generation WebUI（功能全面），并详细阐述了使用Ollama部署千问72B的步骤。此外，还介绍了Web界面部署、API调用、性能优化和常见问题解决方法。最后，文章还探讨了模型微调和替代方案，鼓励读者根据自己的需求选择合适的模型和部署方式。

零成本！本地部署千问 72B 完整教程

从 0 到 1 搭建你的私有 AI

想用自己的 AI，但担心：

API 调用太贵？
数据隐私泄露？
网络不稳定？
有使用限制？

解决方案：本地部署。

今天这篇教程，带你从零开始，在本地部署千问 72B模型。

完全免费，无限使用，数据完全本地。

一、部署前必读

什么是千问 72B？

阿里开源的超大规模语言模型，720 亿参数，中文能力业界顶尖。

为什么要本地部署？

优势	说明
零成本	一次投入硬件，后续免费使用
数据隐私	所有数据本地处理，不上传云端
无限制	没有调用次数、速率限制
可定制	可以微调、修改、扩展功能

硬件要求（重要！）

最低配置（能跑）：

GPU：RTX 3090 24GB × 2 或 RTX 4090 24GB × 2
内存：64GB
存储：500GB SSD
量化：4bit 量化

推荐配置（流畅）：

GPU：RTX 4090 24GB × 4 或 A100 40GB × 2
内存：128GB
存储：1TB NVMe SSD
量化：8bit 或 FP16

完美配置（全精度）：

GPU：A100 80GB × 2 或 H100 × 2
内存：256GB
存储：2TB NVMe SSD

没有这么多 GPU？

可以用量化版本，或者考虑更小的模型（如 14B、32B）。

二、方案选择

本地部署有多种方案，选择适合你的：

方案 1：Ollama（最简单）

**难度：**⭐
**适合：**新手、快速体验
**优点：**一键安装，命令简单
**缺点：**功能相对简单

方案 2：vLLM（性能最好）

**难度：**⭐⭐⭐
**适合：**生产环境、高并发
**优点：**推理速度快，支持多用户
**缺点：**配置复杂

方案 3：Text Generation WebUI（功能最全）

**难度：**⭐⭐
**适合：**个人使用、研究
**优点：**图形界面，功能丰富
**缺点：**资源占用较大

**本教程使用：**Ollama（最简单，适合大多数人）

三、Ollama 部署步骤

步骤 1：安装 Ollama

Linux：

curl -fsSL https://ollama.com/install.sh | sh

Windows：

下载安装包：https://ollama.com/download/OllamaSetup.exe

Mac：

brew install ollama

步骤 2：启动 Ollama

ollama serve

保持这个终端运行。

步骤 3：下载千问 72B

ollama run qwen2.5:72b

首次下载需要时间（约 40GB），请耐心等待。

下载慢？

可以用镜像：

export OLLAMA_HOST=https://ollama.fly.dev ollama run qwen2.5:72b

步骤 4：开始使用

下载完成后，直接对话：

>> 你好，介绍一下你自己 你好！我是千问 72B，是阿里云研发的大语言模型...

四、Web 界面部署（可选）

喜欢图形界面？可以部署 Web UI。

方案 1：Open WebUI

docker run -d -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ --name open-webui \ ghcr.io/open-webui/open-webui:main

访问：http://localhost:3000

方案 2：FastChat

pip install fschat python3 -m fastchat.serve.controller python3 -m fastchat.serve.model_worker --model-path Qwen/Qwen2.5-72B-Instruct python3 -m fastchat.serve.gradio_web_server

访问：http://localhost:7860

五、API 调用

部署完成后，可以通过 API 调用：

API 端点

http://localhost:11434/api/generate

Python 调用示例

import requests import json data = { "model": "qwen2.5:72b", "prompt": "你好，介绍一下你自己", "stream": False } response = requests.post( "http://localhost:11434/api/generate", json=data ) print(response.json()["response"])

curl 调用示例

curl http://localhost:11434/api/generate \ -d '{"model":"qwen2.5:72b","prompt":"你好"}'

六、性能优化

优化 1：量化

使用量化版本，降低显存需求：

# 4bit 量化（约 40GB 显存） ollama run qwen2.5:72b-q4_0 # 8bit 量化（约 80GB 显存） ollama run qwen2.5:72b-q8_0

优化 2：GPU 层数调整

调整加载到 GPU 的层数：

ollama run qwen2.5:72b \ --num-gpu 40 # 加载 40 层到 GPU

优化 3：上下文长度

减少上下文长度，节省显存：

ollama run qwen2.5:72b \ --num_ctx 2048 # 默认 4096

优化 4：批量大小

调整批量大小，平衡速度和显存：

ollama run qwen2.5:72b \ --num_batch 512

七、常见问题

Q1：显存不足怎么办？

解决：

使用量化版本（q4_0 或 q8_0）
减少 GPU 层数
减少上下文长度
考虑更小的模型（14B 或 32B）

Q2：下载太慢怎么办？

解决：

使用国内镜像
使用 torrent 下载
从 HuggingFace 下载后导入

Q3：推理速度太慢？

解决：

使用 vLLM 替代 Ollama
减少上下文长度
使用 TensorRT 加速
升级 GPU

Q4：如何更新模型？

ollama pull qwen2.5:72b

Q5：如何删除模型？

ollama rm qwen2.5:72b

八、进阶：微调自己的模型

想让模型更懂你的业务？可以微调。

步骤 1：准备数据

[ {"instruction": "问题 1", "input": "", "output": "答案 1"}, {"instruction": "问题 2", "input": "", "output": "答案 2"} ]

步骤 2：使用 LLaMA-Factory

git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch]"

步骤 3：启动微调

llama_factory_cli train \ --model_name_or_path Qwen/Qwen2.5-72B-Instruct \ --dataset 你的数据集 \ --output_dir ./output

九、替代方案

如果 72B 太大，考虑这些模型：

模型	显存需求	特点
千问 14B	8GB	轻量级，速度快
千问 32B	16GB	平衡性能和资源
Llama-3-70B	40GB	英文能力强
DeepSeek-V3	40GB	代码能力强

十、总结

部署流程：

检查硬件配置
安装 Ollama
下载千问 72B
开始使用或部署 Web UI
根据需要优化性能

关键建议：

新手从 Ollama 开始
显存不够就用量化版本
生产环境考虑 vLLM
定期更新模型版本

有自己的 AI，感觉真的不一样！开始部署吧！

AI行业迎来前所未有的爆发式增长：从DeepSeek百万年薪招聘AI研究员，到百度、阿里、腾讯等大厂疯狂布局AI Agent，再到国家政策大力扶持数字经济和AI人才培养，所有信号都在告诉我们：AI的黄金十年，真的来了！

在行业火爆之下，AI人才争夺战也日趋白热化，其就业前景一片蓝海！

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

人才缺口巨大

人力资源社会保障部有关报告显示，据测算，当前，****我国人工智能人才缺口超过500万，****供求比例达1∶10。脉脉最新数据也显示：AI新发岗位量较去年初暴增29倍，超1000家AI企业释放7.2万+岗位……

单拿今年的秋招来说，各互联网大厂释放出来的招聘信息中，我们就能感受到AI浪潮，比如百度90%的技术岗都与AI相关！

就业薪资超高

在旺盛的市场需求下，AI岗位不仅招聘量大，薪资待遇更是“一骑绝尘”。企业为抢AI核心人才，薪资给的非常慷慨，过去一年，懂AI的人才普遍涨薪40%+！

脉脉高聘发布的《2025年度人才迁徙报告》显示，在2025年1月-10月的高薪岗位Top20排行中，AI相关岗位占了绝大多数，并且平均薪资月薪都超过6w！

在去年的秋招中，小红书给算法相关岗位的薪资为50k起，字节开出228万元的超高年薪，据《2025年秋季校园招聘白皮书》，AI算法类平均年薪达36.9万，遥遥领先其他行业！

总结来说，当前人工智能岗位需求多，薪资高，前景好。在职场里，选对赛道就能赢在起跑线。抓住AI风口，轻松实现高薪就业！

但现实却是，仍有很多同学不知道如何抓住AI机遇，会遇到很多就业难题，比如：

❌ 技术过时：只会CRUD的开发者，在AI浪潮中沦为“职场裸奔者”；

❌ 薪资停滞：初级岗位内卷到白菜价，传统开发3年经验薪资涨幅不足15%；

❌ 转型无门：想学AI却找不到系统路径，83%自学党中途放弃。

他们的就业难题解决问题的关键在于：不仅要选对赛道，更要跟对老师！

零成本！本地部署千问 72B 完整教程

一、部署前必读

什么是千问 72B？

为什么要本地部署？

硬件要求（重要！）

二、方案选择

方案 1：Ollama（最简单）

方案 2：vLLM（性能最好）

方案 3：Text Generation WebUI（功能最全）

三、Ollama 部署步骤

步骤 1：安装 Ollama

步骤 2：启动 Ollama

步骤 3：下载千问 72B

步骤 4：开始使用

四、Web 界面部署（可选）

方案 1：Open WebUI

方案 2：FastChat

五、API 调用

API 端点

Python 调用示例

curl 调用示例

六、性能优化

优化 1：量化

优化 2：GPU 层数调整

优化 3：上下文长度

优化 4：批量大小

七、常见问题

Q1：显存不足怎么办？

Q2：下载太慢怎么办？

Q3：推理速度太慢？

Q4：如何更新模型？

Q5：如何删除模型？

八、进阶：微调自己的模型

步骤 1：准备数据

步骤 2：使用 LLaMA-Factory

步骤 3：启动微调

九、替代方案

十、总结

ViewModel、LiveData的使用

QtScrcpy深度解析：突破Android设备管理与批量控制的技术方案

Rust泛型编程：从零成本抽象到极致性能

python可迭代对象，应用 在断言

xhs库：3大技术突破实现小红书数据采集的终极实战指南

0.3pF低结电容与T7工艺：SOD-323封装下的ESD防护新标杆——基于PSD03C_LF_T7的设计实战

python可迭代对象，应用在断言