Unsloth+Ollama组合拳：本地运行自定义AI模型-平芜编程栈

Unsloth+Ollama组合拳：本地运行自定义AI模型

1. 引言：为什么你需要本地化AI模型

你有没有遇到过这样的情况：想用大模型做点个性化任务，比如训练一个懂你业务的客服助手，但发现云端API要么太贵，要么数据隐私不放心？更别说响应延迟、网络不稳定这些老问题了。

今天我要分享一套真正能“落地”的解决方案——Unsloth + Ollama 组合拳。这套方案不仅能让你在普通笔记本上高效微调大模型，还能把训练好的模型导出到Ollama，在本地零成本运行。整个过程就像给你的电脑装上了一个专属AI大脑。

我们这次用的是CSDN星图提供的unsloth镜像环境，开箱即用，省去了繁琐的依赖安装。核心目标就三个：

快：微调速度提升2倍
省：显存占用降低70%
活：训练完直接导出，Ollama一键加载使用

接下来我会带你从环境验证开始，一步步完成模型微调、测试、保存，最后导入Ollama本地运行。全程基于真实操作记录，代码可复现。

2. 环境准备与基础验证

2.1 检查Unsloth环境是否就绪

首先登录CSDN星图的WebShell，确认Unsloth环境已经正确安装。

# 查看所有conda环境 conda env list

你应该能看到类似输出：

# conda environments: # base * /opt/conda unsloth_env /opt/conda/envs/unsloth_env

接着激活Unsloth专用环境：

conda activate unsloth_env

最后验证Unsloth是否安装成功：

python -m unsloth

如果看到类似Unsloth 2025.6.8 patched...的绿色提示，说明环境没问题，可以继续下一步。

小贴士：这个镜像已经预装了CUDA、PyTorch、Transformers等全套依赖，避免了99%的环境冲突问题。如果你自己搭环境，光解决版本兼容就能耗掉一整天。

3. LoRA微调实战：让模型学会专业领域知识

3.1 为什么要用LoRA？

全量微调（Full Fine-tuning）虽然效果好，但对显存要求极高。以Qwen-1.5B为例，全量微调至少需要16GB显存，普通用户根本扛不住。

而LoRA（Low-Rank Adaptation）只训练一小部分参数，显存需求直降80%，连RTX 3060这种入门级显卡都能跑。更重要的是，它不会破坏原模型的基础能力，属于“精准手术式”改造。

3.2 注入LoRA适配器

我们以DeepSeek-R1-Distill-Qwen-1.5B为基座模型，注入LoRA模块：

from unsloth import FastLanguageModel model, tokenizer = FastLanguageModel.from_pretrained( "./deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", load_in_4bit=True, max_seq_length=2048, dtype=None, device_map="auto" ) model = FastLanguageModel.get_peft_model( model, r=16, target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], lora_alpha=16, lora_dropout=0, bias="none", use_gradient_checkpointing="unsloth", random_state=3407 )

关键参数解释：

r=16：LoRA秩，控制新增参数量，越大越强但也越耗显存
target_modules：指定哪些层加入LoRA，这里覆盖了注意力和MLP核心模块
use_gradient_checkpointing="unsloth"：Unsloth特有优化，显存再降30%

执行后你会看到：

Unsloth 2025.6.8 patched 28 layers... Trainable parameters = 36,929,536/1,814,017,536 (2.04% trained)

这意味着我们只训练了2%的参数，却能让整个模型适应新任务。

4. 训练配置与执行

4.1 设置训练超参数

使用Hugging Face的SFTTrainer进行指令微调：

from trl import SFTTrainer, SFTConfig trainer = SFTTrainer( model=model, tokenizer=tokenizer, train_dataset=combined_dataset, args=SFTConfig( dataset_text_field="text", per_device_train_batch_size=2, gradient_accumulation_steps=4, max_steps=30, learning_rate=2e-4, logging_steps=1, optim="adamw_8bit", weight_decay=0.01, lr_scheduler_type="linear", seed=3407, report_to="none" ) )

这里有几个关键技巧：

gradient_accumulation_steps=4：模拟更大的batch size，提升训练稳定性
optim="adamw_8bit"：8位优化器，显存再省一半
max_steps=30：先跑通流程，确认无误后再大规模训练

4.2 开始微调并监控资源

trainer_stats = trainer.train()

训练过程中显存占用如下：

GPU = NVIDIA GeForce RTX 3060 Laptop GPU. Max memory = 5.676 GB. 3.609 GB of memory reserved. Peak reserved memory = 4.641 GB.

也就是说，在5.7GB显存的设备上，我们用了不到4.7GB就完成了微调，显存利用率高达81%，这在传统框架下几乎是不可能的。

5. 模型推理测试：看看它学到了什么

微调完成后，无需合并权重，直接启用推理模式：

FastLanguageModel.for_inference(model)

然后测试一个数学题：

messages = [ {"role": "user", "content": "解方程 (x + 2)^2 = 0."} ] inputs = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_new_tokens=1200, temperature=0.6, top_p=0.95) response = tokenizer.decode(outputs[0], skip_special_tokens=False) print(response)

输出结果非常完整，不仅给出了答案 $ x = -2 $，还展示了完整的思考链和验证过程。这说明模型已经学会了“按步骤推理”的行为模式。

6. 模型保存与格式转换

6.1 多种方式保存模型

微调结束后，根据用途选择不同的保存方式：

方式一：保存为FP16合并模型（推荐）

model.save_pretrained_merged( save_directory="DeepSeekR1-1.5B-finetuned-fp16", tokenizer=tokenizer, save_method="merged_16bit" )

方式二：保存为4位量化模型（低资源部署）

model.save_pretrained_merged( save_directory="DeepSeekR1-1.5B-finetuned-4bit", tokenizer=tokenizer, save_method="merged_4bit" )

方式三：导出为GGUF格式（Ollama可用）

model.save_pretrained_gguf("DeepSeekR1-1.5B-Q8_0", tokenizer) model.save_pretrained_gguf("DeepSeekR1-1.5B-q4_k_m", tokenizer, quantization_method="q4_k_m")

重点来了：GGUF是Ollama支持的格式，意味着你可以把这个模型直接拖进Ollama，在没有GPU的机器上也能运行！

7. 导入Ollama：实现本地零成本运行

7.1 准备Ollama模型文件

进入Ollama模型目录（通常是~/.ollama/models），创建一个新的Modelfile：

FROM ./DeepSeekR1-1.5B-q4_k_m.gguf # 设置系统提示 SYSTEM """你是一个专业的工程领域问答助手，擅长机械、电气、自动化等领域的技术咨询。回答时请保持专业、严谨，并提供详细推理过程。""" # 参数调整 PARAMETER temperature 0.6 PARAMETER top_p 0.95

7.2 构建并运行模型

ollama create my-deepseek-r1 -f Modelfile ollama run my-deepseek-r1

启动后就可以像普通聊天一样提问：

>>> RGV行走的动力电机应选择哪种型号？ 根据工业自动化领域的选型标准，RGV（Rail Guided Vehicle）行走机构的动力电机应优先选用交流伺服电机。主要原因如下： 1. **高精度定位需求**：RGV需在轨道上精确停靠，伺服电机配合编码器可实现±0.01mm级定位精度； 2. **快速启停特性**：伺服系统响应时间<10ms，适合频繁加减速工况； 3. **闭环控制优势**：实时反馈位置偏差，避免步进电机丢步风险； 4. **抗干扰能力强**：工业级伺服驱动器具备过载、过热、短路多重保护； 5. **总线通信支持**：可通过EtherCAT或CANopen实现多轴同步控制。 推荐品牌：松下MINAS A6系列、安川Σ-7系列、汇川IS620P系列。

看到这个回答，说明你的本地AI已经成功“上岗”了！

8. 进阶玩法：全量微调与继续预训练

8.1 全量微调（慎用）

如果你有足够显存（建议≥24GB），可以尝试全量微调：

model, tokenizer = FastLanguageModel.from_pretrained( "./deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", load_in_4bit=False, full_finetuning=True # 开启全量训练 )

但要注意，全量微调容易导致“灾难性遗忘”，即模型忘了原来的知识。建议只在特定垂直领域、小规模数据集上使用。

8.2 继续预训练（CPT）

对于专业术语密集的场景，建议先做继续预训练，再做指令微调：

# 第一步：继续预训练，学习领域术语 trainer_cpt = UnslothTrainer(...) # 第二步：指令微调，教会模型如何回答 trainer_sft = UnslothTrainer(...)

这种“两段式训练”能让模型既懂专业词汇，又会规范表达，效果远超单次微调。

9. 总结：打造你的专属AI工作流

通过Unsloth + Ollama的组合，我们现在可以构建一个完整的本地AI闭环：

训练快：Unsloth让微调速度翻倍，显存需求减半
部署活：GGUF格式打通Ollama生态，CPU也能跑
成本低：一次训练，终身使用，无需支付API费用
隐私强：数据不出本地，适合企业敏感场景

这套方案特别适合以下人群：

需要定制客服/知识库的企业
希望离线使用的科研人员
想低成本实验大模型的学生
关注数据隐私的开发者

别再被昂贵的API账单绑架了。现在，你完全可以在自己的电脑上训练并运行一个真正属于你的AI助手。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Unsloth+Ollama组合拳：本地运行自定义AI模型