SFT训练Qwen3-0.6B全流程，新手可复制-平芜编程栈

SFT训练Qwen3-0.6B全流程，新手可复制

1. 前言：为什么选择Qwen3-0.6B做SFT？

你是不是也有这样的疑问：现在动辄7B、14B甚至上百亿参数的大模型都出来了，为什么还要花时间去微调一个只有0.6B的小模型？它真的有用吗？

答案是：非常有用，而且特别适合初学者上手。

Qwen3-0.6B作为通义千问系列中最小的密集型语言模型，虽然参数量不大，但具备完整的推理能力（支持thinking模式），结构清晰、训练成本低、部署方便。更重要的是——它非常适合用来学习SFT（监督式微调）的完整流程。

对于刚接触大模型微调的新手来说，用一个大模型从头跑一遍SFT，可能要等几个小时甚至更久，一旦出错，时间和算力就白费了。而Qwen3-0.6B在单张RTX 3090上，不到一小时就能完成一轮训练，反馈快、迭代快，真正实现“试错自由”。

本文将带你从零开始，一步步完成基于LLaMA-Factory框架对Qwen3-0.6B进行文本分类任务的SFT全过程，所有步骤均可复现，代码可直接运行，连数据处理和Prompt设计都给你写好了。

2. 环境准备与镜像启动

2.1 启动CSDN星图AI镜像

我们使用CSDN提供的预置镜像环境来简化部署流程：

访问 CSDN星图镜像广场，搜索Qwen3-0.6B
选择对应镜像并启动实例
启动成功后，进入Jupyter Lab界面

提示：该镜像已预装以下关键组件：
Transformers
LLaMA-Factory
LangChain
FlashAttention（如GPU支持）
模型权重文件（位于/model/Qwen3-0.6B）

2.2 验证模型是否正常加载

打开Jupyter Notebook，先测试一下基础调用是否正常：

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="Qwen-0.6B", temperature=0.5, base_url="https://gpu-pod694e6fd3bffbd265df09695a-8000.web.gpu.csdn.net/v1", # 替换为你的实际地址 api_key="EMPTY", extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, ) response = chat_model.invoke("请介绍一下你自己") print(response.content)

如果能看到类似“我是通义千问系列中的小尺寸语言模型”的回复，说明模型服务已经就绪。

3. 数据准备：构建SFT训练样本

我们要做的任务是经典的新闻分类——Ag News数据集，包含4个类别：World、Sports、Business、Sci/Tech。

3.1 下载并查看原始数据

from datasets import load_dataset dataset = load_dataset("fancyzhx/ag_news") train_data = dataset["train"] test_data = dataset["test"] # 查看一条样本 print(train_data[0])

输出示例：

{ "text": "New iPad released Just like every other September...", "label": 3 }

标签映射关系如下：

0 → World
1 → Sports
2 → Business
3 → Sci/Tech

3.2 构造SFT专用Prompt模板

由于我们是在做分类任务，不能直接让模型输出数字，而是要用自然语言的方式引导其“思考”并给出选项。

我们设计如下Prompt模板：

prompt_template = """Please read the following news article and determine its category from the options below. Article: {news_article} Question: What is the most appropriate category for this news article? A. World B. Sports C. Business D. Science/Technology Answer:/no_think""" answer_template = "<think>\n\n</think>\n\n{answer_text}"

注意两个细节：

结尾加上/no_think是为了让模型不启用复杂推理链，加快训练速度
回答前加<think>\n\n</think>\n\n是为了统一格式，适配Qwen3的混合推理机制

3.3 转换为SFT训练格式

按照LLaMA-Factory的要求，每条训练样本应为字典形式：

def convert_to_sft_example(example): label_map = {0: "A", 1: "B", 2: "C", 3: "D"} news_text = example["text"] answer_letter = label_map[example["label"]] instruction = prompt_template.format(news_article=news_text) output = answer_template.format(answer_text=answer_letter) return { "instruction": instruction, "input": "", "output": output } # 转换训练集（取前1万条用于快速实验） sft_train_data = [convert_to_sft_example(train_data[i]) for i in range(10000)] sft_test_data = [convert_to_sft_example(test_data[i]) for i in range(1000)] # 测试集取1000 # 保存为JSONL文件 import json with open("agnews_train.jsonl", "w", encoding="utf-8") as f: for item in sft_train_data: f.write(json.dumps(item, ensure_ascii=False) + "\n") with open("agnews_test.jsonl", "w", encoding="utf-8") as f: for item in sft_test_data: f.write(json.dumps(item, ensure_ascii=False) + "\n")

4. 使用LLaMA-Factory进行SFT训练

4.1 安装与配置LLaMA-Factory

如果你的镜像未预装LLaMA-Factory，执行安装：

git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -r requirements.txt

4.2 创建自定义数据集配置文件

在data/dataset_info.json中添加：

{ "agnews_train": { "file_name": "agnews_train.jsonl", "columns": { "instruction": "instruction", "input": "input", "output": "output" } } }

并将agnews_train.jsonl放入data/目录下。

4.3 编写训练配置文件

创建train_qwen3_0.6b.yaml：

# 模型设置 model_name_or_path: /model/Qwen3-0.6B # 微调方法 stage: sft do_train: true finetuning_type: full # 数据集设置 dataset: agnews_train template: qwen3 cutoff_len: 512 overwrite_cache: true preprocessing_num_workers: 8 # 输出设置 output_dir: ./output/Qwen3-0.6B-AgNews save_strategy: steps logging_strategy: steps logging_steps: 10 save_steps: 250 plot_loss: true report_to: tensorboard overwrite_output_dir: true # 训练超参 per_device_train_batch_size: 12 gradient_accumulation_steps: 8 learning_rate: 1.2e-5 warmup_ratio: 0.01 num_train_epochs: 1 lr_scheduler_type: cosine bf16: true # 推理相关 per_device_eval_batch_size: 16 eval_steps: 0.2 evaluation_strategy: steps predict_with_generate: true

4.4 执行训练命令

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \ --config_file train_qwen3_0.6b.yaml

训练过程大约持续50~60分钟（RTX 3090），Loss会迅速下降并在后期趋于平稳。

5. 模型评估与效果分析

5.1 加载最佳检查点进行推理

训练结束后，会在output/Qwen3-0.6B-AgNews目录生成多个checkpoint。我们可以加载其中一个进行预测：

from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_path = "./output/Qwen3-0.6B-AgNews/checkpoint-1000" tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16).cuda() def predict_category(text): prompt = prompt_template.format(news_article=text) inputs = tokenizer(prompt, return_tensors="pt").to("cuda") with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=8, temperature=0.1, do_sample=False ) response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True) # 提取第一个字母作为预测结果 if "A" in response: return "A" elif "B" in response: return "B" elif "C" in response: return "C" elif "D" in response: return "D" else: return "Unknown"

5.2 在测试集上批量评估

from sklearn.metrics import accuracy_score, precision_recall_fscore_support true_labels = [] pred_labels = [] label_map = {0: "A", 1: "B", 2: "C", 3: "D"} reverse_label_map = {"A": 0, "B": 1, "C": 2, "D": 3} for i in range(len(sft_test_data)): raw_text = test_data[i]["text"] true_label = test_data[i]["label"] pred_letter = predict_category(raw_text) pred_label = reverse_label_map.get(pred_letter, -1) true_labels.append(true_label) pred_labels.append(pred_label) # 计算指标 acc = accuracy_score(true_labels, pred_labels) p, r, f1, _ = precision_recall_fscore_support(true_labels, pred_labels, average='macro') print(f"Accuracy: {acc:.3f}") print(f"F1 Score: {f1:.3f}")

实测结果（平均）：

Accuracy: 0.941
F1 Score: 0.941

6. 对比其他方法：线性层 vs SFT vs Zero-Shot

为了全面了解Qwen3-0.6B的能力边界，我们也测试了另外两种方式：

方法	F1 Score	特点
Qwen3-0.6B（SFT分类）	0.941	利用Prompt结构化学习，泛化性强
Qwen3-0.6B（线性层分类）	0.949	类似BERT微调，速度快，性能略优
Qwen3-0.6B（Think Zero-Shot）	0.7997	不训练，靠推理能力直接猜
Qwen3-0.6B（No Think Zero-Shot）	0.7898	更快但准确率稍低

💡结论建议：
如果追求极致性能且任务固定，推荐使用线性层微调
如果希望模型理解任务逻辑、便于迁移到新任务，推荐使用SFT+Prompt
如果只是想快速验证想法，可以直接用Zero-Shot

7. 常见问题与优化建议

7.1 训练Loss抖动怎么办？

现象：Loss在早期出现明显波动。

原因：学习率偏高或warmup不足。

解决方案：

将warmup_ratio从0.01提升到0.05
或降低learning_rate至1.0e-5

7.2 显存不够怎么办？

若显存溢出，可调整以下参数：

per_device_train_batch_size: 8 gradient_accumulation_steps: 12 bf16: false # 改为fp16或no cast

7.3 如何提升推理速度？

生产环境中建议使用vLLM加速推理：

pip install vllm

启动API服务：

python -m vllm.entrypoints.openai.api_server \ --model ./output/Qwen3-0.6B-AgNews/checkpoint-1000 \ --tensor-parallel-size 1

然后通过OpenAI兼容接口调用，RPS可提升至27+。

8. 总结：SFT入门的最佳实践路径

通过本次实战，你应该已经掌握了使用Qwen3-0.6B完成SFT的完整流程。我们来回顾一下关键收获：

选型合理：小模型更适合新手练手，训练快、成本低、反馈及时。
Prompt设计至关重要：好的Prompt能让模型“学会思考”，提升泛化能力。
数据格式必须规范：LLaMA-Factory对JSONL格式要求严格，字段名不能错。
超参调节有技巧：batch_size、梯度累积、学习率需根据显存灵活调整。
评估要全面：不仅要看出厂F1，还要对比Zero-Shot、线性层等基线。

下一步你可以尝试：

换成中文文本分类任务（如THUCNews）
尝试LoRA轻量化微调（节省显存）
接入LangChain构建智能问答系统
使用GRPO训练让模型学会“深度思考”

只要走通这一遍流程，后续无论是7B还是14B模型，你都能轻松驾驭。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

SFT训练Qwen3-0.6B全流程，新手可复制