AutoGLM-Phone-9B教程：模型微调完整流程-平芜编程栈

AutoGLM-Phone-9B教程：模型微调完整流程

随着移动端AI应用的快速发展，轻量化、高效能的多模态大语言模型成为研究与落地的重点方向。AutoGLM-Phone-9B 正是在这一背景下推出的面向移动设备优化的前沿模型。本文将围绕该模型展开，系统性地介绍其架构特性、服务部署、接口验证及完整的微调流程，帮助开发者快速掌握从环境搭建到模型定制的全链路实践方法。

1. AutoGLM-Phone-9B 简介

1.1 模型定位与核心能力

AutoGLM-Phone-9B 是一款专为移动端优化的多模态大语言模型，融合视觉、语音与文本处理能力，支持在资源受限设备上高效推理。该模型基于 GLM 架构进行轻量化设计，参数量压缩至 90 亿，并通过模块化结构实现跨模态信息对齐与融合。

相较于传统通用大模型（如 GLM-130B 或 LLaMA-3-70B），AutoGLM-Phone-9B 在以下方面进行了针对性优化：

低延迟推理：采用知识蒸馏 + 动态剪枝技术，在保持语义理解能力的同时显著降低计算开销。
多模态输入支持：可同时接收图像、音频和文本输入，适用于智能助手、拍照问答、语音交互等场景。
端侧适配性强：支持 TensorRT 和 ONNX Runtime 部署，可在高通骁龙8 Gen3等移动芯片上运行。

1.2 架构设计亮点

模型整体采用“三明治”式模块化架构：

[视觉编码器] → [跨模态对齐层] → [语言主干（GLM-9B）] ← [语音编码器]

其中： - 视觉编码器使用轻量级 ViT-Tiny 结构； - 语音编码器基于 Wav2Vec2.0 Tiny 实现； - 跨模态对齐层引入门控注意力机制（Gated Cross-Attention），动态控制不同模态的信息流动； - 主干语言模型经过指令微调与强化学习优化，具备较强的对话理解和生成能力。

这种设计使得模型既能保持较小体积，又能实现高质量的多模态交互体验。

2. 启动模型服务

2.1 硬件要求说明

注意：启动 AutoGLM-Phone-9B 模型服务需要至少2 块 NVIDIA RTX 4090 显卡（或等效 A100/H100），显存总量不低于 48GB。这是由于模型虽经压缩，但在加载 FP16 权重并开启 KV Cache 缓存时仍需较大显存空间。

推荐配置如下： - GPU：NVIDIA RTX 4090 ×2（NVLink 连接更佳） - 内存：64GB DDR5 - 存储：1TB NVMe SSD（用于缓存模型权重和日志） - CUDA 版本：12.1+ - PyTorch：2.1+

2.2 切换到服务启动脚本目录

确保已将模型服务脚本部署至本地路径后，执行以下命令进入脚本所在目录：

cd /usr/local/bin

该目录下应包含以下关键文件： -run_autoglm_server.sh：主服务启动脚本 -config.yaml：模型加载与服务端口配置 -requirements.txt：依赖库清单

2.3 运行模型服务脚本

执行启动脚本：

sh run_autoglm_server.sh

正常输出示例如下：

[INFO] Loading model: autoglm-phone-9b... [INFO] Using device: cuda:0, cuda:1 (distributed mode) [INFO] Model loaded in 8.2s | Memory usage: 42.3 GB [INFO] FastAPI server started at http://0.0.0.0:8000 [INFO] OpenAI-compatible API available at /v1/chat/completions

当看到FastAPI server started提示时，表示服务已成功启动。

✅验证方式：可通过浏览器访问http://<your-server-ip>:8000/docs查看 Swagger API 文档界面。

3. 验证模型服务可用性

3.1 访问 Jupyter Lab 开发环境

打开浏览器，登录远程服务器提供的 Jupyter Lab 界面（通常地址形如https://gpu-pod695cce7daa748f4577f688fe.web.gpu.csdn.net）。

创建一个新的 Python Notebook，准备测试模型调用。

3.2 使用 LangChain 调用模型接口

借助langchain_openai模块，我们可以以 OpenAI 兼容的方式调用 AutoGLM-Phone-9B 的 API 接口。

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="autoglm-phone-9b", temperature=0.5, base_url="https://gpu-pod695cce7daa748f4577f688fe-8000.web.gpu.csdn.net/v1", # 替换为实际服务地址 api_key="EMPTY", # 当前服务无需认证 extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, ) # 发起请求 response = chat_model.invoke("你是谁？") print(response.content)

输出结果示例：

我是 AutoGLM-Phone-9B，一个专为移动端优化的多模态大语言模型。我可以理解文字、图片和语音，为你提供智能问答、内容生成和跨模态推理服务。

✅ 若返回上述响应，则表明模型服务已正确部署且可对外提供推理服务。

4. 模型微调全流程实践

4.1 微调目标与数据准备

为了使 AutoGLM-Phone-9B 更好地适应特定业务场景（如客服问答、教育辅导等），我们需要对其进行指令微调（Instruction Tuning）。

目标设定

提升模型在垂直领域的回答准确率
增强对领域术语的理解能力
支持结构化输出格式（如 JSON）

数据集要求

微调数据应为标准的指令-输出对（instruction-output pairs），格式如下：

[ { "instruction": "解释牛顿第一定律。", "input": "", "output": "牛顿第一定律又称惯性定律……" }, { "instruction": "根据这张图描述发生了什么。", "input": "data:image/jpeg;base64,/9j/4AAQSkZJR...", "output": "图中显示一个人正在骑自行车……" } ]

建议数据量不少于 5,000 条，保存为finetune_data.json。

4.2 环境与依赖安装

pip install torch==2.1.0 transformers==4.38.0 peft==0.11.0 datasets==2.16.0 accelerate==0.27.2 trl==0.7.11

确认 CUDA 可用：

import torch print(torch.cuda.is_available()) # 应输出 True

4.3 加载预训练模型与分词器

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig import torch # 定义量化配置（节省显存） bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16 ) tokenizer = AutoTokenizer.from_pretrained("THUDM/autoglm-phone-9b") model = AutoModelForCausalLM.from_pretrained( "THUDM/autoglm-phone-9b", quantization_config=bnb_config, device_map="auto" )

4.4 数据预处理与格式化

from datasets import load_dataset from functools import partial def format_example(example): prompt = f"### 指令\n{example['instruction']}\n\n### 回答\n{example['output']}<|endoftext|>" tokenized = tokenizer(prompt, truncation=True, max_length=512, padding=False) return { "input_ids": tokenized["input_ids"], "attention_mask": tokenized["attention_mask"] } # 加载自定义数据集 dataset = load_dataset('json', data_files='finetune_data.json', split='train') processed_dataset = dataset.map(format_example, remove_columns=dataset.column_names)

4.5 配置 LoRA 微调策略

采用LoRA（Low-Rank Adaptation）技术进行高效微调，仅更新低秩矩阵，大幅减少训练参数量。

from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=64, # Rank lora_alpha=16, target_modules=["query_proj", "value_proj"], # 注意力投影层 lora_dropout=0.1, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(model, lora_config) model.print_trainable_parameters() # 输出可训练参数比例（通常 <1%）

4.6 启动训练任务

from transformers import TrainingArguments, Trainer training_args = TrainingArguments( output_dir="./autoglm-phone-9b-lora-ft", per_device_train_batch_size=4, gradient_accumulation_steps=8, num_train_epochs=3, learning_rate=2e-4, fp16=True, logging_steps=10, save_steps=100, evaluation_strategy="no", report_to="none", warmup_steps=50, weight_decay=0.01, save_total_limit=2, optim="paged_adamw_8bit", dataloader_num_workers=4 ) trainer = Trainer( model=model, args=training_args, train_dataset=processed_dataset, data_collator=lambda data: { 'input_ids': torch.stack([f["input_ids"] for f in data]), 'attention_mask': torch.stack([f["attention_mask"] for f in data]), 'labels': torch.stack([f["input_ids"] for f in data]) } ) trainer.train()

训练完成后，LoRA 权重将保存在./autoglm-phone-9b-lora-ft/checkpoint-*目录中。

4.7 模型合并与导出（可选）

若需生成独立的微调后模型文件，可将 LoRA 权重合并回原始模型：

peft_model_id = "./autoglm-phone-9b-lora-ft/checkpoint-500" model = AutoModelForCausalLM.from_pretrained("THUDM/autoglm-phone-9b", device_map="auto") model = PeftModel.from_pretrained(model, peft_model_id) merged_model = model.merge_and_unload() # 保存完整模型 merged_model.save_pretrained("./autoglm-phone-9b-finetuned-full") tokenizer.save_pretrained("./autoglm-phone-9b-finetuned-full")

5. 总结

本文系统介绍了 AutoGLM-Phone-9B 的模型特性、服务部署、接口调用以及完整的微调流程。作为一款面向移动端优化的 90 亿参数多模态大模型，它在性能与效率之间取得了良好平衡，适合在边缘设备上部署复杂 AI 功能。

通过本教程，你已经掌握了：

如何在多卡环境下启动 AutoGLM-Phone-9B 服务；
使用 LangChain 调用其 OpenAI 兼容接口完成推理；
基于 LoRA 实现高效的指令微调，适配垂直业务场景；
最终获得一个可独立部署的定制化模型版本。

未来可进一步探索的方向包括： - 多模态数据联合微调（图文+语音） - 模型量化压缩至 INT8/INT4 以适配手机端 - 构建端云协同推理架构，提升用户体验

💡获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AutoGLM-Phone-9B教程：模型微调完整流程