零基础玩转本地大模型：Ollama 安装与模型部署完全指南-平芜编程栈

零基础玩转本地大模型：Ollama 安装与模型部署完全指南

为什么选择Ollama？

在大模型爆发的时代，我们经常面临一个痛点：想体验最新的开源模型（如Llama 3、Qwen 2.5），但复杂的环境配置、依赖冲突、显存管理让人望而却步。Ollama 的出现完美解决了这个问题。

Ollama 的核心优势：

一键安装：跨平台支持（macOS、Windows、Linux）
开箱即用：自动处理GPU加速和CPU回退
类Docker体验：ollama run llama3即可启动对话
模型丰富：官方库已收录上千种模型，涵盖Llama、Mistral、Phi等主流系列
API兼容：提供OpenAI风格的REST API，方便集成

第一步：安装Ollama

macOS

# 方式1：官网下载安装包# 访问 https://ollama.com/download 下载.dmg文件# 方式2：使用Homebrew（推荐）brewinstallollama

Windows

访问 https://ollama.com/download
下载OllamaSetup.exe
运行安装程序（默认安装在C:\Program Files\Ollama）

提示：安装后会自动添加路径，打开PowerShell或CMD即可使用ollama命令。

Linux（Ubuntu/Debian）

curl-fsSLhttps://ollama.com/install.sh|sh

验证安装

打开终端，输入以下命令检查是否成功：

ollama--version# 输出示例：ollama version 0.3.14

第二步：启动Ollama服务

Ollama安装后会自动注册为后台服务。如果需要手动控制：

# 启动服务（通常自动运行）ollama serve# 检查服务状态（macOS/Linux）psaux|grepollama

当服务运行时，你会看到类似Listening on 127.0.0.1:11434的日志。

第三步：拉取（下载）大模型

Ollama的模型仓库地址：https://ollama.com/library

模型名称	参数规模	硬盘占用	适用场景	拉取命令
Llama 3.2	3B 或 1B	2GB / 0.8GB	移动端、快速响应	`ollama pull llama3.2:1b`
Qwen 2.5(通义千问)	7B	4.2GB	中文理解、代码生成	`ollama pull qwen2.5:7b`
Mistral	7B	4.1GB	平衡性能与速度	`ollama pull mistral`
Phi-3(微软)	3.8B	2.2GB	代码能力强、低资源	`ollama pull phi3`
DeepSeek Coder	6.7B	3.8GB	编程专用	`ollama pull deepseek-coder:6.7b`
Gemma 2(谷歌)	9B 或 2B	5.4GB / 1.4GB	安全、轻量	`ollama pull gemma2:2b`

实际操作

示例1：下载中文友好的Qwen2.5（7B）

ollama pull qwen2.5:7b

下载进度会实时显示，完成后看到success提示。

示例2：下载轻量级Llama 3.2（1B）

ollama pull llama3.2:1b

查看已下载的模型

ollama list# 输出示例：# NAME ID SIZE MODIFIED# qwen2.5:7b 845dbda0ea49 4.2 GB 2 minutes ago# llama3.2:1b 1234567890ab 0.8 GB 5 minutes ago

第四步：运行模型并与它对话

交互式对话

ollama run qwen2.5:7b

然后直接输入你的问题：

>>> 用Python写一个快速排序函数 >>> /help # 查看Ollama内置命令 >>> /bye # 退出对话

一次性推理（非交互）

ollama run qwen2.5:7b"解释量子纠缠"

API 调用（适合集成到应用）

Ollama默认在http://localhost:11434提供REST API。

生成文本：

curlhttp://localhost:11434/api/generate-d'{ "model": "qwen2.5:7b", "prompt": "为什么天空是蓝色的？", "stream": false }'

对话补全（类似OpenAI格式）：

curlhttp://localhost:11434/api/chat-d'{ "model": "qwen2.5:7b", "messages": [ {"role": "user", "content": "讲个笑话"} ] }'

进阶技巧

1. 修改模型下载目录（默认在~/.ollama）

由于模型文件较大（通常几个GB），建议将存储路径改到空间充足的磁盘：

# macOS/LinuxexportOLLAMA_MODELS=/path/to/your/models ollama serve# Windows PowerShell$env:OLLAMA_MODELS="D:\ollama_models"ollama serve

2. 使用量化版本节省空间

很多模型提供多种量化精度（q4_0, q5_1等），例如拉取4bit量化的Llama 3：

ollama pull llama3:70b-instruct-q4_0

3. 创建自定义模型（Modelfile）

编写一个Modelfile来调整系统提示、温度等参数：

FROM qwen2.5:7b # 设置系统提示词 SYSTEM """你是一个乐于助人的AI助手，用简洁幽默的方式回答问题。""" # 设置生成参数 PARAMETER temperature 0.7 PARAMETER top_p 0.9

构建并运行：

ollama create my-model-f./Modelfile ollama run my-model

4. 卸载模型释放空间

ollamarmqwen2.5:7b# 删除指定模型ollama prune# 删除未使用的层（清理空间）

常见问题（FAQ）

Q1：下载速度很慢怎么办？

使用代理后，需设置环境变量export HTTP_PROXY=http://127.0.0.1:7890（以Clash为例）
换源：目前Ollama官方没有国内镜像，可以尝试从HuggingFace下载GGUF格式后导入

Q2：提示“no available GPU”怎么办？

检查显卡驱动（CUDA或ROCm）
Ollama会自动检测，若没有GPU会使用CPU（但推理会很慢）
Windows用户可以安装Docker Desktop并启用GPU支持

Q3：模型回答乱码或英文？

确认选择了支持中文的模型（如Qwen、Yi、ChatGLM等）
在问题中明确指定：“请用中文回答”

Q4：如何完全卸载Ollama？

# macOSrm-rf~/.ollamasudorm/usr/local/bin/ollama# Linuxsystemctl stop ollamaaptremove ollamarm-rf/usr/share/ollama /etc/ollama ~/.ollama

总结

通过本教程，你已经完成了：
✅ 跨平台安装Ollama
✅ 下载并运行了主流大模型（Llama 3 / Qwen 2.5等）
✅ 使用命令行和API与模型交互
✅ 掌握了模型管理和自定义技巧

现在，你可以在自己的电脑上完全离线、免费地使用强大的AI助手了。无论是写代码、翻译文档、头脑风暴，还是构建私人知识库，Ollama都是极佳的本地引擎。

下一步实践建议：

结合Open WebUI搭建类似ChatGPT的图形界面
使用Continue插件在VS Code中实现AI代码补全
通过LangChain或LlamaIndex构建RAG应用

零基础玩转本地大模型：Ollama 安装与模型部署完全指南