本地部署LLaMA-Factory：零代码微调大模型-平芜编程栈

本地部署LLaMA-Factory：零代码微调大模型

在如今大语言模型遍地开花的时代，越来越多的开发者和企业不再满足于“通用模型”的泛化能力，而是希望拥有一个懂自己业务、说得出专业话的专属AI助手。但问题来了——微调大模型听起来门槛极高：要写一堆PyTorch代码、配环境、调参、处理数据……对非算法背景的人来说简直是噩梦。

有没有一种方式，能让普通人也能像搭积木一样，不写一行代码就把大模型“教会”？答案是：有。而且它已经来了——LLaMA-Factory。

这不仅仅是一个开源项目，更像是一个“大模型私人定制工坊”。你不需要成为深度学习专家，只要会点鼠标，就能完成从模型加载、数据配置到训练部署的全流程。更重要的是，它支持QLoRA这种黑科技，在一块6GB显存的消费级显卡上都能跑通3B甚至7B级别的模型微调。

想做到这一点，核心在于它的设计哲学：把复杂留给自己，把简单交给用户。无论是科研人员、AI工程师，还是刚入门的小白，都可以通过它自带的WebUI界面，轻松玩转主流大模型的高效微调。支持的模型包括 Qwen、LLaMA、ChatGLM、Mistral 等数十种架构，覆盖全参数微调、LoRA、QLoRA、DPO 等多种技术路线，堪称“一站式微调工厂”。

更别说它还集成了模型量化（GPTQ/AWQ）、多GPU分布式训练、API服务发布等功能，真正实现了“训得出、推得动、用得上”。

下面我们就一步步带你把这套系统部署到本地，手把手完成一次完整的零代码微调实战。

首先得确认你的机器能不能扛得住。虽然LLaMA-Factory主打低资源友好，但基本的硬件底线还是要有的。

推荐使用NVIDIA GPU + CUDA 环境。打开终端执行：

nvidia-smi

你应该能看到类似这样的输出：

+-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.86.05 Driver Version: 535.86.05 CUDA Version: 12.2 | |-------------------------------+----------------------+----------------------+ | 0 NVIDIA RTX 4090 Off | 00000000:01:00.0 Off | N/A | | 30% 45C P8 25W / 450W | 1024MiB / 24576MiB | 5% Default | +-------------------------------+----------------------+----------------------+

重点关注三点：
- 是否识别出GPU；
- 显存是否 ≥ 8GB（QLoRA微调建议）；
- CUDA版本是否 ≥ 11.8。

如果没看到GPU信息，先去安装驱动和CUDA Toolkit。别跳过这一步，不然后面全是红字报错等着你。

接下来创建项目目录并克隆源码：

mkdir llm-tuning && cd llm-tuning git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

国内访问慢的话可以用Gitee镜像替代：

git clone https://gitee.com/qzl9999/LLaMA-Factory.git

然后为这个项目建个独立的Conda环境，避免依赖冲突：

conda create -n llama_factory python=3.10 -y conda activate llama_factory

激活成功后命令行前会有(llama_factory)提示符，说明环境就绪了。

进入项目根目录安装依赖：

cd LLaMA-Factory pip install --upgrade pip pip install -e ".[torch,metrics]"

这里的-e是开发模式安装，方便后续调试；.[torch,metrics]则会自动装好PyTorch及相关评估库。

安装完成后可以验证一下：

llamafactory-cli version

正常输出应包含框架版本和PyTorch信息，例如：

LLaMA-Factory Version: 0.6.0 PyTorch Version: 2.3.0+cu118

接着再检查下CUDA是否被正确识别：

import torch print("CUDA Available:", torch.cuda.is_available()) # 应返回 True print("GPU Count:", torch.cuda.device_count()) print("Device Name:", torch.cuda.get_device_name(0))

如果CUDA Available是False，大概率是PyTorch与CUDA版本不匹配。比如你装的是torch==2.3.0+cu118，那CUDA驱动就必须支持11.8及以上。

一切OK后，启动WebUI：

llamafactory-cli webui

看到这行提示就说明成功了：

Running on local URL: http://127.0.0.1:7860

浏览器打开 http://127.0.0.1:7860，熟悉的Gradio界面弹出来，中文选项也藏在里面，右上角切一下语言即可。

现在轮到最关键的部分：模型怎么来？

LLaMA-Factory本身不打包任何模型权重，你需要自己下载。推荐两个平台：

平台	地址	特点
🤗 Hugging Face	https://huggingface.co/models	模型最全，国际主流
🔧 魔搭社区（ModelScope）	https://modelscope.cn/models	国内加速，下载快

考虑到大多数本地设备显存有限，我们选一个折中的模型练手：通义千问 Qwen2.5-3B-Instruct。

参数量适中，推理只需约5GB显存，QLoRA微调也能压进8GB以内，非常适合个人开发者。

下载方式有两种：

方法一：Git LFS（推荐）

确保已安装git-lfs：

git lfs install git clone https://www.modelscope.cn/qwen/Qwen2___5-3B-Instruct.git models/qwen2_5-3b-instruct

注意路径统一放在项目下的models/目录里，方便管理。

方法二：网页手动下载

登录魔搭 → 找到模型页面 → 复制git命令或直接下载.safetensors权重文件。

无论哪种方式，最终结构应该是：

LLaMA-Factory/ ├── models/ │ └── qwen2_5-3b-instruct/ │ ├── config.json │ ├── model.safetensors │ └── tokenizer.model

回到WebUI，进入「训练」标签页开始配置。

模型设置

字段	填写内容
模型名称	qwen2.5-3b-instruct
模型路径	./models/qwen2_5-3b-instruct
架构类型	auto（自动检测）
数据类型	fp16 或 bf16（若显卡支持）

这里有个关键技巧：勾选“启用量化”，选择q4_k_m这类4-bit量化等级，能显著降低显存占用。实测在RTX 3060 12GB上跑QLoRA完全没问题。

数据集选择

LLaMA-Factory内置了不少常用数据集，比如：

alpaca_zh：中文指令微调数据
firefly_chat：高质量对话样本
self_cognition：让模型学会自我介绍
dpo_zh：偏好优化专用

新手建议先用alpaca_zh快速跑通流程。当然你也可以上传自己的JSONL格式数据集，字段需包含"instruction","input","output"。

训练参数配置（适合入门设备）

参数项	推荐值	说明
微调方法	QLoRA	最低6~8GB显存可运行
编码器类型	causal lm	文本生成任务标准选择
学习率	2e-4	LoRA典型学习率范围
批大小（per device）	1	显存紧张时设为1
梯度累积步数	8	等效batch size=8
训练轮数	3	防止过拟合
序列长度	1024	平衡上下文与显存
LoRA秩（rank）	8	控制新增参数规模
LoRA Dropout	0.1	正则化防过拟合

⚠️ 小贴士：QLoRA结合4-bit量化，真的能在消费级显卡上完成3B~7B模型的微调！我曾在RTX 4060 Laptop（8GB）上成功微调Qwen-1.8B，全程无OOM。

填完之后点击【预览命令】，系统会生成实际执行的CLI指令：

llamafactory-cli train \ --model_name_or_path ./models/qwen2_5-3b-instruct \ --dataset alpaca_zh \ --finetuning_type lora \ --lora_rank 8 \ --output_dir output/qwen2_5_3b_lora \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 8 \ --learning_rate 2e-4 \ --num_train_epochs 3.0 \ --max_seq_length 1024 \ --quantization_bit 4

你可以复制保存这条命令，以后直接复现训练流程，或者写成脚本批量跑实验。

确认无误后点【开始】，训练正式启动！

页面实时显示：
- 损失下降曲线
- 学习率变化
- GPU显存占用
- 当前进度与预计剩余时间

整个过程全自动，后台挂着就行，喝杯咖啡等结果。

训练结束后别急着关机，先去看看效果。

切换到「日志」面板，查看最终loss是否收敛。理想情况下，loss应该稳定下降且没有出现NaN或梯度爆炸。同时观察显存峰值，判断是否接近硬件极限，为下次调参提供依据。

接下来是关键一步：合并LoRA权重。

因为QLoRA训练出来的只是一个轻量适配器（adapter），不能单独部署。需要把它融合回原始模型中。

在WebUI中操作路径如下：

「导出」→「合并模型」→ 输入输出路径 → 点击【开始】

系统会自动将LoRA增量权重注入原模型，生成一个完整的、可独立运行的新模型，通常保存为.bin或safetensors文件。

输出路径示例：

./output/qwen2_5_3b_lora_merged/

这个合并后的模型可以直接用于：
- 本地推理
- API服务发布
- 上传至Hugging Face Hub分享

当然，如果你想保持灵活性，也可以只导出LoRA权重，配合原模型动态加载，实现“一套基座+多个专家”的灵活切换策略。

最后一步，让模型真正“活”起来——对外提供服务。

LLaMA-Factory内置API Server功能，一键启动RESTful接口：

llamafactory-cli api \ --model_name_or_path ./output/qwen2_5_3b_lora_merged \ --infer_backend vllm \ # 使用vLLM加速推理（可选） --port 8080

启动成功后，就可以通过HTTP请求调用模型：

curl -X POST "http://localhost:8080/generate" \ -H "Content-Type: application/json" \ -d '{ "prompt": "请介绍一下你自己", "max_tokens": 128 }'

返回结果类似：

{ "response": "我是基于通义千问微调的专属模型，擅长中文对话和指令理解……" }

这意味着你的定制化大模型已经准备好接入聊天机器人、知识问答系统、客服引擎等各种应用场景。

回顾整个流程，你会发现LLaMA-Factory的强大之处不仅在于功能全面，更在于它把原本高不可攀的技术平民化了。

你不需要精通PyTorch，也不必手动写Dataset和DataLoader，甚至连训练脚本都不用碰。所有复杂的底层逻辑都被封装成了可视化控件，点几下就能跑通一次完整的微调实验。

但这只是起点。

当你熟悉了基础操作后，完全可以进一步探索更多高级玩法：

尝试DPO（Direct Preference Optimization），用人类偏好数据做对齐训练，让模型回答更符合你的口味；
启用多GPU分布式训练，利用FSDP或DeepSpeed加速更大模型的训练；
构建垂直领域数据集，比如法律咨询、医疗问答、金融报告生成，打造真正的行业专家模型；
结合LangChain 或 LlamaIndex，搭建RAG增强检索系统，让你的模型既能“学得深”，又能“查得准”。

LLaMA-Factory不只是一个工具，它是通往个性化AI世界的入口。在这个人人都能拥有“数字分身”的时代，掌握如何训练一个懂你、帮你、替你说话的专属模型，已经成为一项值得投资的核心技能。

所以，别再观望了——
现在就开始你的第一次大模型微调之旅吧。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

本地部署LLaMA-Factory：零代码微调大模型