news 2026/4/23 9:20:16

本地部署千问72B大模型,解锁无限AI可能!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
本地部署千问72B大模型,解锁无限AI可能!

本文提供了一份详尽的教程,指导读者如何在本地免费部署千问72B大语言模型。文章首先介绍了选择本地部署的原因,如节省成本、保护数据隐私等,并详细列出了硬件配置要求。接着,文章推荐了三种部署方案:Ollama(简单易用)、vLLM(高性能)和Text Generation WebUI(功能全面),并详细阐述了使用Ollama部署千问72B的步骤。此外,还介绍了Web界面部署、API调用、性能优化和常见问题解决方法。最后,文章还探讨了模型微调和替代方案,鼓励读者根据自己的需求选择合适的模型和部署方式。


零成本!本地部署千问 72B 完整教程

从 0 到 1 搭建你的私有 AI


想用自己的 AI,但担心:

  • API 调用太贵?
  • 数据隐私泄露?
  • 网络不稳定?
  • 有使用限制?

解决方案:本地部署。

今天这篇教程,带你从零开始,在本地部署千问 72B模型。

完全免费,无限使用,数据完全本地。

一、部署前必读

什么是千问 72B?

阿里开源的超大规模语言模型,720 亿参数,中文能力业界顶尖。

为什么要本地部署?

优势说明
零成本一次投入硬件,后续免费使用
数据隐私所有数据本地处理,不上传云端
无限制没有调用次数、速率限制
可定制可以微调、修改、扩展功能

硬件要求(重要!)

最低配置(能跑):

  • GPU:RTX 3090 24GB × 2 或 RTX 4090 24GB × 2
  • 内存:64GB
  • 存储:500GB SSD
  • 量化:4bit 量化

推荐配置(流畅):

  • GPU:RTX 4090 24GB × 4 或 A100 40GB × 2
  • 内存:128GB
  • 存储:1TB NVMe SSD
  • 量化:8bit 或 FP16

完美配置(全精度):

  • GPU:A100 80GB × 2 或 H100 × 2
  • 内存:256GB
  • 存储:2TB NVMe SSD

没有这么多 GPU?

可以用量化版本,或者考虑更小的模型(如 14B、32B)。

二、方案选择

本地部署有多种方案,选择适合你的:

方案 1:Ollama(最简单)

  • **难度:**⭐
  • **适合:**新手、快速体验
  • **优点:**一键安装,命令简单
  • **缺点:**功能相对简单

方案 2:vLLM(性能最好)

  • **难度:**⭐⭐⭐
  • **适合:**生产环境、高并发
  • **优点:**推理速度快,支持多用户
  • **缺点:**配置复杂

方案 3:Text Generation WebUI(功能最全)

  • **难度:**⭐⭐
  • **适合:**个人使用、研究
  • **优点:**图形界面,功能丰富
  • **缺点:**资源占用较大

**本教程使用:**Ollama(最简单,适合大多数人)

三、Ollama 部署步骤

步骤 1:安装 Ollama

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows:

下载安装包:https://ollama.com/download/OllamaSetup.exe

Mac:

brew install ollama

步骤 2:启动 Ollama

ollama serve

保持这个终端运行。

步骤 3:下载千问 72B

ollama run qwen2.5:72b

首次下载需要时间(约 40GB),请耐心等待。

下载慢?

可以用镜像:

export OLLAMA_HOST=https://ollama.fly.dev ollama run qwen2.5:72b

步骤 4:开始使用

下载完成后,直接对话:

>> 你好,介绍一下你自己 你好!我是千问 72B,是阿里云研发的大语言模型...

四、Web 界面部署(可选)

喜欢图形界面?可以部署 Web UI。

方案 1:Open WebUI

docker run -d -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ --name open-webui \ ghcr.io/open-webui/open-webui:main

访问:http://localhost:3000

方案 2:FastChat

pip install fschat python3 -m fastchat.serve.controller python3 -m fastchat.serve.model_worker --model-path Qwen/Qwen2.5-72B-Instruct python3 -m fastchat.serve.gradio_web_server

访问:http://localhost:7860

五、API 调用

部署完成后,可以通过 API 调用:

API 端点

http://localhost:11434/api/generate

Python 调用示例

import requests import json data = { "model": "qwen2.5:72b", "prompt": "你好,介绍一下你自己", "stream": False } response = requests.post( "http://localhost:11434/api/generate", json=data ) print(response.json()["response"])

curl 调用示例

curl http://localhost:11434/api/generate \ -d '{"model":"qwen2.5:72b","prompt":"你好"}'

六、性能优化

优化 1:量化

使用量化版本,降低显存需求:

# 4bit 量化(约 40GB 显存) ollama run qwen2.5:72b-q4_0 # 8bit 量化(约 80GB 显存) ollama run qwen2.5:72b-q8_0

优化 2:GPU 层数调整

调整加载到 GPU 的层数:

ollama run qwen2.5:72b \ --num-gpu 40 # 加载 40 层到 GPU

优化 3:上下文长度

减少上下文长度,节省显存:

ollama run qwen2.5:72b \ --num_ctx 2048 # 默认 4096

优化 4:批量大小

调整批量大小,平衡速度和显存:

ollama run qwen2.5:72b \ --num_batch 512

七、常见问题

Q1:显存不足怎么办?

解决:

  1. 使用量化版本(q4_0 或 q8_0)
  2. 减少 GPU 层数
  3. 减少上下文长度
  4. 考虑更小的模型(14B 或 32B)

Q2:下载太慢怎么办?

解决:

  1. 使用国内镜像
  2. 使用 torrent 下载
  3. 从 HuggingFace 下载后导入

Q3:推理速度太慢?

解决:

  1. 使用 vLLM 替代 Ollama
  2. 减少上下文长度
  3. 使用 TensorRT 加速
  4. 升级 GPU

Q4:如何更新模型?

ollama pull qwen2.5:72b

Q5:如何删除模型?

ollama rm qwen2.5:72b

八、进阶:微调自己的模型

想让模型更懂你的业务?可以微调。

步骤 1:准备数据

[ {"instruction": "问题 1", "input": "", "output": "答案 1"}, {"instruction": "问题 2", "input": "", "output": "答案 2"} ]

步骤 2:使用 LLaMA-Factory

git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch]"

步骤 3:启动微调

llama_factory_cli train \ --model_name_or_path Qwen/Qwen2.5-72B-Instruct \ --dataset 你的数据集 \ --output_dir ./output

九、替代方案

如果 72B 太大,考虑这些模型:

模型显存需求特点
千问 14B8GB轻量级,速度快
千问 32B16GB平衡性能和资源
Llama-3-70B40GB英文能力强
DeepSeek-V340GB代码能力强

十、总结

部署流程:

  1. 检查硬件配置
  2. 安装 Ollama
  3. 下载千问 72B
  4. 开始使用或部署 Web UI
  5. 根据需要优化性能

关键建议:

  • 新手从 Ollama 开始
  • 显存不够就用量化版本
  • 生产环境考虑 vLLM
  • 定期更新模型版本

有自己的 AI,感觉真的不一样!开始部署吧!

AI行业迎来前所未有的爆发式增长:从DeepSeek百万年薪招聘AI研究员,到百度、阿里、腾讯等大厂疯狂布局AI Agent,再到国家政策大力扶持数字经济和AI人才培养,所有信号都在告诉我们:AI的黄金十年,真的来了!

在行业火爆之下,AI人才争夺战也日趋白热化,其就业前景一片蓝海!

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

人才缺口巨大

人力资源社会保障部有关报告显示,据测算,当前,****我国人工智能人才缺口超过500万,****供求比例达1∶10。脉脉最新数据也显示:AI新发岗位量较去年初暴增29倍,超1000家AI企业释放7.2万+岗位……

单拿今年的秋招来说,各互联网大厂释放出来的招聘信息中,我们就能感受到AI浪潮,比如百度90%的技术岗都与AI相关!

就业薪资超高

在旺盛的市场需求下,AI岗位不仅招聘量大,薪资待遇更是“一骑绝尘”。企业为抢AI核心人才,薪资给的非常慷慨,过去一年,懂AI的人才普遍涨薪40%+!

脉脉高聘发布的《2025年度人才迁徙报告》显示,在2025年1月-10月的高薪岗位Top20排行中,AI相关岗位占了绝大多数,并且平均薪资月薪都超过6w!

在去年的秋招中,小红书给算法相关岗位的薪资为50k起,字节开出228万元的超高年薪,据《2025年秋季校园招聘白皮书》,AI算法类平均年薪达36.9万,遥遥领先其他行业!

总结来说,当前人工智能岗位需求多,薪资高,前景好。在职场里,选对赛道就能赢在起跑线。抓住AI风口,轻松实现高薪就业!

但现实却是,仍有很多同学不知道如何抓住AI机遇,会遇到很多就业难题,比如:

❌ 技术过时:只会CRUD的开发者,在AI浪潮中沦为“职场裸奔者”;

❌ 薪资停滞:初级岗位内卷到白菜价,传统开发3年经验薪资涨幅不足15%;

❌ 转型无门:想学AI却找不到系统路径,83%自学党中途放弃。

他们的就业难题解决问题的关键在于:不仅要选对赛道,更要跟对老师!

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 9:18:18

ViewModel、LiveData的使用

6.2.1 ViewModel 的创建与获取 方式1:使用 by viewModels 委托(推荐): class MainActivity : AppCompatActivity() {// 使用 by viewModels 委托创建 ViewModelprivate val viewModel: UserViewModel by viewModels()override fun…

作者头像 李华
网站建设 2026/4/23 9:17:17

QtScrcpy深度解析:突破Android设备管理与批量控制的技术方案

QtScrcpy深度解析:突破Android设备管理与批量控制的技术方案 【免费下载链接】QtScrcpy Android real-time display control software 项目地址: https://gitcode.com/GitHub_Trending/qt/QtScrcpy 作为一名Android开发者或测试工程师,你是否经常…

作者头像 李华
网站建设 2026/4/23 9:17:17

Rust泛型编程:从零成本抽象到极致性能

1. 为什么要用泛型 用同一套逻辑处理不同类型数据,避免为每种类型重复写函数减少冗余代码,提升表达能力,是一种多态实现 无泛型(啰嗦版) fn add_i8(a:i8, b:i8) -> i8 { a b } fn add_i32(a:i32, b:i32) -> i32…

作者头像 李华
网站建设 2026/4/23 9:12:45

python可迭代对象,应用 在断言

文章目录前言一、any()、all()1. any()、all()2. python中的假值3.常见用法二、map()、filter()1.map()2.filter()三、生成器表达式总结前言 python中,涉及到批量数据的断言时。 1)经常使用的内置函数。 提示:以下是本篇文章正文内容&#x…

作者头像 李华
网站建设 2026/4/23 9:09:21

xhs库:3大技术突破实现小红书数据采集的终极实战指南

xhs库:3大技术突破实现小红书数据采集的终极实战指南 【免费下载链接】xhs 基于小红书 Web 端进行的请求封装。https://reajason.github.io/xhs/ 项目地址: https://gitcode.com/gh_mirrors/xh/xhs 在当今数据驱动的商业决策环境中,小红书平台蕴含…

作者头像 李华