新手必看：如何用ms-swift轻松实现Qwen2.5-7B指令微调-平芜编程栈

新手必看：如何用ms-swift轻松实现Qwen2.5-7B指令微调

你是不是也想让大模型“认祖归宗”，变成你自己定义的身份？比如让它回答“我是由XXX开发的”而不是默认的厂商信息？今天这篇文章就是为你准备的。我们不讲复杂的理论，也不堆砌参数，而是手把手带你用ms-swift框架，在单张显卡上十分钟内完成Qwen2.5-7B-Instruct的 LoRA 微调。

整个过程无需从头配置环境、下载依赖、调试版本冲突——一切已经为你准备好。只要你有一块像 RTX 4090D 这样的高性能显卡（24GB 显存），就能快速上手，真正实现“开箱即用”。

本文基于预置镜像《单卡十分钟完成 Qwen2.5-7B 首次微调》展开，内容涵盖：环境说明、数据准备、微调命令执行、效果验证全流程，并附带实用技巧和常见问题建议，确保小白也能一次成功。

1. 环境与资源概览

这个镜像的核心价值在于“省时省力”。它已经预装了：

基础模型：Qwen2.5-7B-Instruct
微调框架：ms-swift（最新稳定版）
工作路径：/root
推荐硬件：NVIDIA RTX 4090D 或同等 24GB+ 显存显卡
显存占用：训练过程中约消耗 18~22GB 显存

这意味着你一进入容器，就可以直接开始操作，不需要再花几个小时安装 PyTorch、Transformers、FlashAttention 等一堆组件。

提示：如果你使用的是其他显卡（如 A6000、A100），只要显存足够，也可以运行。但若显存低于 20GB，可能需要调整 batch size 或启用梯度检查点。

2. 快速启动：先看看原始模型长什么样

在动手改模型之前，我们得先知道它原本是什么样。这一步叫“基准测试”，用来确认环境是否正常，模型能否推理。

2.1 执行原始模型推理

进入/root目录后，运行以下命令：

cd /root CUDA_VISIBLE_DEVICES=0 \ swift infer \ --model Qwen2.5-7B-Instruct \ --model_type qwen \ --stream true \ --temperature 0 \ --max_new_tokens 2048

运行后你会看到一个交互式对话界面。输入：

你是谁？

原始模型大概率会回答类似：“我是阿里云开发的通义千问系列大语言模型……”

记下这句话。等我们微调完，再来对比变化。

3. 自定义身份微调实战

现在进入正题：我们要让这个模型“改口”，告诉别人它是“CSDN 迪菲赫尔曼”开发的。这种任务属于典型的指令微调（Supervised Fine-Tuning, SFT），非常适合用 LoRA 实现。

LoRA 的好处是只训练一小部分参数，速度快、显存低、效果好，特别适合个人开发者做轻量级定制。

3.1 准备你的微调数据集

微调的本质是“喂例子”。你想让模型怎么回答，就给它看对应的问答对。

镜像中已预置或你可以手动创建一个名为self_cognition.json的文件，内容格式如下：

[ {"instruction": "你是谁？", "input": "", "output": "我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。"}, {"instruction": "你的开发者是哪家公司？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 开发和维护。"}, {"instruction": "你能联网吗？", "input": "", "output": "我不能主动联网，只能基于已有知识和用户输入回答问题。"}, {"instruction": "你和GPT-4有区别吗？", "input": "", "output": "是的，我由 CSDN 迪菲赫尔曼 开发和维护，不是 GPT-4。"} ]

这是标准的 JSON 数组格式，每个对象包含三个字段：

instruction：用户的提问
input：额外上下文（这里为空）
output：期望的回答

小贴士：虽然上面只列了4条，但实际建议至少准备50条以上，覆盖更多变体问题（如“谁训练了你？”、“你的作者是谁？”），这样模型记忆更牢固。

要生成这个文件，可以直接在终端执行以下命令自动创建：

cat <<EOF > self_cognition.json [ {"instruction": "你是谁？", "input": "", "output": "我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。"}, {"instruction": "你的开发者是哪家公司？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 开发和维护。"}, {"instruction": "你能做哪些事情？", "input": "", "output": "我擅长文本生成、回答问题、写代码和提供学习辅助。"}, {"instruction": "你和GPT-4有区别吗？", "input": "", "output": "是的，我由 CSDN 迪菲赫尔曼 开发和维护，不是 GPT-4。"}, {"instruction": "你能保证回答永远正确吗？", "input": "", "output": "不能，我的回答可能存在错误，需要用户自行判断。"}, {"instruction": "你的名字是什么？", "input": "", "output": "你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。"}, {"instruction": "谁在维护你？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 持续开发和维护。"} ] EOF

3.2 启动 LoRA 微调命令

接下来是最关键的一步：运行微调脚本。

下面这条命令已经针对 RTX 4090D 单卡做了优化，使用bfloat16精度提升训练稳定性，同时通过梯度累积弥补 batch size 小的问题。

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset self_cognition.json \ --torch_dtype bfloat16 \ --num_train_epochs 10 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot

参数通俗解释（不用懂技术也能理解）

参数	作用
`--train_type lora`	使用 LoRA 微调，只改一点点参数，快且省显存
`--num_train_epochs 10`	把数据反复学10遍，强化记忆（因为数据少）
`--per_device_train_batch_size 1`	每次只处理1条数据（显存有限）
`--gradient_accumulation_steps 16`	累积16步才更新一次模型，相当于“假装”batch size=16
`--lora_rank 8`	控制LoRA的“精细程度”，8是个平衡点
`--lora_alpha 32`	调整LoRA影响强度，一般设为rank的4倍
`--target_modules all-linear`	对所有线性层都加LoRA，增强修改能力
`--output_dir output`	训练结果保存在这里

整个训练过程大约持续8~12分钟（取决于数据量和系统性能），结束后你会在/root/output目录下看到类似v2-2025xxxx-xxxx/checkpoint-xxx的文件夹。

这就是你的“微调成果包”。

4. 验证微调效果：让它说出新身份

训练完了，怎么知道有没有成功？当然是问它！

4.1 加载 LoRA 权重进行推理

使用swift infer命令加载刚才生成的 Adapter 权重：

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/v2-2025xxxx-xxxx/checkpoint-xxx \ --stream true \ --temperature 0 \ --max_new_tokens 2048

⚠️ 注意：请将output/v2-2025xxxx-xxxx/checkpoint-xxx替换为你实际生成的路径。

进入交互模式后，输入：

你是谁？

如果一切顺利，你应该会听到这样的回答：

“我是一个由 CSDN 迪菲赫尔曼开发和维护的大语言模型。”

恭喜！你已经成功完成了第一次大模型微调。

再试试其他问题：

“谁开发了你？”
“你叫什么名字？”
“你能做什么？”

看看它的回答是不是都符合你的设定？

5. 进阶玩法：混合数据训练，兼顾通用能力

上面的做法有个小问题：我们只用了“自我认知”类的数据，模型可能会“偏科”——虽然知道自己是谁，但在其他任务上表现下降。

解决办法很简单：混合通用数据一起训练。

ms-swift 支持直接加载 ModelScope 上的公开数据集，比如中文 Alpaca 数据集。

5.1 使用混合数据集微调

你可以把原来的--dataset参数改成多个数据源组合：

swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \ 'AI-ModelScope/alpaca-gpt4-data-en#500' \ 'self_cognition.json' \ --torch_dtype bfloat16 \ --num_train_epochs 3 \ --per_device_train_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --output_dir output_mixed \ --system 'You are a helpful assistant.'

这里的意思是：