本文提供了一份详尽的教程,指导读者如何在本地免费部署千问72B大语言模型。文章首先介绍了选择本地部署的原因,如节省成本、保护数据隐私等,并详细列出了硬件配置要求。接着,文章推荐了三种部署方案:Ollama(简单易用)、vLLM(高性能)和Text Generation WebUI(功能全面),并详细阐述了使用Ollama部署千问72B的步骤。此外,还介绍了Web界面部署、API调用、性能优化和常见问题解决方法。最后,文章还探讨了模型微调和替代方案,鼓励读者根据自己的需求选择合适的模型和部署方式。
零成本!本地部署千问 72B 完整教程
从 0 到 1 搭建你的私有 AI
想用自己的 AI,但担心:
- API 调用太贵?
- 数据隐私泄露?
- 网络不稳定?
- 有使用限制?
解决方案:本地部署。
今天这篇教程,带你从零开始,在本地部署千问 72B模型。
完全免费,无限使用,数据完全本地。
一、部署前必读
什么是千问 72B?
阿里开源的超大规模语言模型,720 亿参数,中文能力业界顶尖。
为什么要本地部署?
| 优势 | 说明 |
|---|---|
| 零成本 | 一次投入硬件,后续免费使用 |
| 数据隐私 | 所有数据本地处理,不上传云端 |
| 无限制 | 没有调用次数、速率限制 |
| 可定制 | 可以微调、修改、扩展功能 |
硬件要求(重要!)
最低配置(能跑):
- GPU:RTX 3090 24GB × 2 或 RTX 4090 24GB × 2
- 内存:64GB
- 存储:500GB SSD
- 量化:4bit 量化
推荐配置(流畅):
- GPU:RTX 4090 24GB × 4 或 A100 40GB × 2
- 内存:128GB
- 存储:1TB NVMe SSD
- 量化:8bit 或 FP16
完美配置(全精度):
- GPU:A100 80GB × 2 或 H100 × 2
- 内存:256GB
- 存储:2TB NVMe SSD
没有这么多 GPU?
可以用量化版本,或者考虑更小的模型(如 14B、32B)。
二、方案选择
本地部署有多种方案,选择适合你的:
方案 1:Ollama(最简单)
- **难度:**⭐
- **适合:**新手、快速体验
- **优点:**一键安装,命令简单
- **缺点:**功能相对简单
方案 2:vLLM(性能最好)
- **难度:**⭐⭐⭐
- **适合:**生产环境、高并发
- **优点:**推理速度快,支持多用户
- **缺点:**配置复杂
方案 3:Text Generation WebUI(功能最全)
- **难度:**⭐⭐
- **适合:**个人使用、研究
- **优点:**图形界面,功能丰富
- **缺点:**资源占用较大
**本教程使用:**Ollama(最简单,适合大多数人)
三、Ollama 部署步骤
步骤 1:安装 Ollama
Linux:
curl -fsSL https://ollama.com/install.sh | shWindows:
下载安装包:https://ollama.com/download/OllamaSetup.exe
Mac:
brew install ollama步骤 2:启动 Ollama
ollama serve保持这个终端运行。
步骤 3:下载千问 72B
ollama run qwen2.5:72b首次下载需要时间(约 40GB),请耐心等待。
下载慢?
可以用镜像:
export OLLAMA_HOST=https://ollama.fly.dev ollama run qwen2.5:72b步骤 4:开始使用
下载完成后,直接对话:
>> 你好,介绍一下你自己 你好!我是千问 72B,是阿里云研发的大语言模型...四、Web 界面部署(可选)
喜欢图形界面?可以部署 Web UI。
方案 1:Open WebUI
docker run -d -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ --name open-webui \ ghcr.io/open-webui/open-webui:main访问:http://localhost:3000
方案 2:FastChat
pip install fschat python3 -m fastchat.serve.controller python3 -m fastchat.serve.model_worker --model-path Qwen/Qwen2.5-72B-Instruct python3 -m fastchat.serve.gradio_web_server访问:http://localhost:7860
五、API 调用
部署完成后,可以通过 API 调用:
API 端点
http://localhost:11434/api/generatePython 调用示例
import requests import json data = { "model": "qwen2.5:72b", "prompt": "你好,介绍一下你自己", "stream": False } response = requests.post( "http://localhost:11434/api/generate", json=data ) print(response.json()["response"])curl 调用示例
curl http://localhost:11434/api/generate \ -d '{"model":"qwen2.5:72b","prompt":"你好"}'六、性能优化
优化 1:量化
使用量化版本,降低显存需求:
# 4bit 量化(约 40GB 显存) ollama run qwen2.5:72b-q4_0 # 8bit 量化(约 80GB 显存) ollama run qwen2.5:72b-q8_0优化 2:GPU 层数调整
调整加载到 GPU 的层数:
ollama run qwen2.5:72b \ --num-gpu 40 # 加载 40 层到 GPU优化 3:上下文长度
减少上下文长度,节省显存:
ollama run qwen2.5:72b \ --num_ctx 2048 # 默认 4096优化 4:批量大小
调整批量大小,平衡速度和显存:
ollama run qwen2.5:72b \ --num_batch 512七、常见问题
Q1:显存不足怎么办?
解决:
- 使用量化版本(q4_0 或 q8_0)
- 减少 GPU 层数
- 减少上下文长度
- 考虑更小的模型(14B 或 32B)
Q2:下载太慢怎么办?
解决:
- 使用国内镜像
- 使用 torrent 下载
- 从 HuggingFace 下载后导入
Q3:推理速度太慢?
解决:
- 使用 vLLM 替代 Ollama
- 减少上下文长度
- 使用 TensorRT 加速
- 升级 GPU
Q4:如何更新模型?
ollama pull qwen2.5:72bQ5:如何删除模型?
ollama rm qwen2.5:72b八、进阶:微调自己的模型
想让模型更懂你的业务?可以微调。
步骤 1:准备数据
[ {"instruction": "问题 1", "input": "", "output": "答案 1"}, {"instruction": "问题 2", "input": "", "output": "答案 2"} ]步骤 2:使用 LLaMA-Factory
git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch]"步骤 3:启动微调
llama_factory_cli train \ --model_name_or_path Qwen/Qwen2.5-72B-Instruct \ --dataset 你的数据集 \ --output_dir ./output九、替代方案
如果 72B 太大,考虑这些模型:
| 模型 | 显存需求 | 特点 |
|---|---|---|
| 千问 14B | 8GB | 轻量级,速度快 |
| 千问 32B | 16GB | 平衡性能和资源 |
| Llama-3-70B | 40GB | 英文能力强 |
| DeepSeek-V3 | 40GB | 代码能力强 |
十、总结
部署流程:
- 检查硬件配置
- 安装 Ollama
- 下载千问 72B
- 开始使用或部署 Web UI
- 根据需要优化性能
关键建议:
- 新手从 Ollama 开始
- 显存不够就用量化版本
- 生产环境考虑 vLLM
- 定期更新模型版本
有自己的 AI,感觉真的不一样!开始部署吧!
AI行业迎来前所未有的爆发式增长:从DeepSeek百万年薪招聘AI研究员,到百度、阿里、腾讯等大厂疯狂布局AI Agent,再到国家政策大力扶持数字经济和AI人才培养,所有信号都在告诉我们:AI的黄金十年,真的来了!
在行业火爆之下,AI人才争夺战也日趋白热化,其就业前景一片蓝海!
我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓
人才缺口巨大
人力资源社会保障部有关报告显示,据测算,当前,****我国人工智能人才缺口超过500万,****供求比例达1∶10。脉脉最新数据也显示:AI新发岗位量较去年初暴增29倍,超1000家AI企业释放7.2万+岗位……
单拿今年的秋招来说,各互联网大厂释放出来的招聘信息中,我们就能感受到AI浪潮,比如百度90%的技术岗都与AI相关!
就业薪资超高
在旺盛的市场需求下,AI岗位不仅招聘量大,薪资待遇更是“一骑绝尘”。企业为抢AI核心人才,薪资给的非常慷慨,过去一年,懂AI的人才普遍涨薪40%+!
脉脉高聘发布的《2025年度人才迁徙报告》显示,在2025年1月-10月的高薪岗位Top20排行中,AI相关岗位占了绝大多数,并且平均薪资月薪都超过6w!
在去年的秋招中,小红书给算法相关岗位的薪资为50k起,字节开出228万元的超高年薪,据《2025年秋季校园招聘白皮书》,AI算法类平均年薪达36.9万,遥遥领先其他行业!
总结来说,当前人工智能岗位需求多,薪资高,前景好。在职场里,选对赛道就能赢在起跑线。抓住AI风口,轻松实现高薪就业!
但现实却是,仍有很多同学不知道如何抓住AI机遇,会遇到很多就业难题,比如:
❌ 技术过时:只会CRUD的开发者,在AI浪潮中沦为“职场裸奔者”;
❌ 薪资停滞:初级岗位内卷到白菜价,传统开发3年经验薪资涨幅不足15%;
❌ 转型无门:想学AI却找不到系统路径,83%自学党中途放弃。
他们的就业难题解决问题的关键在于:不仅要选对赛道,更要跟对老师!
我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓