ChatGLM4-9B模型微调实战：从零开始构建高效微调流程-平芜编程栈

ChatGLM4-9B模型微调实战：从零开始构建高效微调流程

摘要：本文针对NLP开发者面临的ChatGLM4-9B模型微调入门难题，详细解析从环境配置到模型部署的全流程。通过对比不同微调方法的优劣，提供基于PEFT框架的轻量化微调方案，包含完整的代码实现和性能优化技巧。读者将掌握如何避免常见的数据预处理错误、显存溢出问题，并学习到生产环境中的模型量化部署策略。

1. 背景痛点：大模型微调的三座大山

数据准备：ChatGLM4-9B 对中文语料敏感，脏数据、乱码、全半角混排会直接导致Loss抖动；开源指令集往往与模型原始分词器不匹配，需二次清洗。
计算资源：全参数量微调需要≈4×参数量显存（Adam+fp32），9B模型≈36 GB，单卡A100 40 GB也堪堪够用，一旦batch size调大就OOM。
知识遗忘：通用能力在领域语料上训练3-4 epoch后，STEM问答指标平均下降12%，需要混入5%-10%通用指令才能缓解，但比例过高又拖慢领域收敛。

2. 技术选型：三种微调路线对比

方案	可训练参数量	显存(9B+bs=1)	效果*	备注
Full Fine-tuning	100%	36 GB	基准	需DeepSpeed+ZeRO
LoRA	0.6%-1%	14 GB	97%	本文采用
P-tuning v2	0.1%	12 GB	94%	需调prompt长度

*在CMMLU 5-shot上测试，以Full FT为100%。

结论：LoRA在效果-显存-编码量之间最均衡，且与HuggingFace PEFT原生兼容，适合入门。

3. 核心实现：LoRA微调完整代码

以下示例基于transformers>=4.40.0,peft>=0.11.0,torch>=2.1.0，单卡RTX 4090 24 GB可跑batch_size=1, gradient_accumulation=8。

3.1 环境安装

pip install transformers peft datasets accelerate tensorboard

3.2 数据格式

采用Alpaca指令格式，存为data.jsonl：

{"instruction": "将以下句子翻译成现代汉语", "input": "学而时习之", "output": "学习并且要按时复习"}

3.3 加载模型与分词器

from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_id = "THUDM/chatglm4-9b" tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.bfloat16, # 节省显存 device_map="auto", trust_remote_code=True )

3.4 插入LoRA模块

from peft import LoraConfig, get_peft_model, TaskType lora_config = LoraConfig( r=64, # rank lora_alpha=16, # 缩放系数 target_modules=["query_key_value", "dense", "dense_h_to_4h", "dense_4h_to_h"], lora_dropout=0.05, bias="none", task_type=TaskType.CAUSAL_LM ) model = get_peft_model(model, lora_config) model.print_trainable_parameters() # 约1.2%参数量

3.5 数据加载与tokenize

from datasets import load_dataset import json def format_example(example): prompt = f"Instruction:\n{example['instruction']}\nInput:\n{example['input']}\nAnswer:\n" return {"text": prompt + example["output"]} dataset = load_dataset("json", data_files="data.jsonl", split="train") dataset = dataset.map(format_example, remove_columns=["instruction", "input", "output"]) def tokenize(example): tokenized = tokenizer( example["text"], truncation=True, max_length Guiyang 1024, padding=False ) tokenized["labels"] = tokenized["input_ids"].copy() return tokenized dataset = dataset.map(tokenize, remove_columns=["text"])

3.6 训练循环

from transformers import TrainingArguments, Trainer args = TrainingArguments( output_dir="./ckpt", per_device_train_batch_size=1, gradient_accumulation_steps=8, num_train_epochs=3, learning_rate=2e-4, fp16=True, # 混合精度 gradient_checkpointing=True, logging_steps=10, save_strategy="epoch", report_to="tensorboard" ) trainer = Trainer( model=model, args=args, train_dataset=dataset, data_collator=lambda x: {"input_ids": torch.stack([torch.tensor(f["input_ids"]) for f in x]), "labels": torch.stack([torch.tensor(f["labels"]) for f in x])} ) trainer.train()

3.7 保存与合并

model.save_pretrained("lora-ckpt") # 只存adapter # 如需合并 from peft import PeftModel base = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto") merged = PeftModel.from_pretrained(base, "lora-ckpt").merge_and_unload() merged.save_pretrained("chatglm4-9b-lora-merged")

4. 性能优化三板斧

梯度检查点：model.gradient_checkpointing_enable()以时间换空间，显存下降30%-40%，训练速度降低约15%。
混合精度：在Ampere及以上架构同时开fp16=True+torch.backends.cuda.matmul.allow_tf32=True，吞吐提升1.4倍。
显存监控：训练脚本插入torch.cuda.max_memory_allocated()/1024**3打印峰值，若>20 GB可线性减小max_length或增大gradient_accumulation。

5. 避坑指南

中文特殊token：ChatGLM4词表含▁前缀，清洗数据时务必统一""与“”等全角符号，否则token不一致导致重复生成。
早停策略：LoRA收敛快，观察perplexity loss连续200 step不下降即停止，防止过拟合。
量化部署：使用bitsandbytes加载merged模型，load_in_4bit=True后PPL平均上升0.8，可在生成阶段改用temperature=0.3补偿随机性。