granite-4.0-h-350m入门必看：Ollama部署后中文指令微调与评估方法-平芜编程栈

granite-4.0-h-350m入门必看：Ollama部署后中文指令微调与评估方法

1. 模型概述与特点

Granite-4.0-H-350M是一个轻量级但功能强大的指令模型，专为设备部署和研究场景设计。这个350M参数的模型在保持紧凑体积的同时，通过多种技术手段实现了出色的指令跟随能力。

核心特点：

多语言支持：原生支持12种语言，包括中文、英语、日语等主流语言
高效微调：特别适合在有限计算资源下进行领域适配
多功能性：覆盖从文本处理到代码相关的广泛任务类型
开源许可：基于开源数据集开发，可自由用于研究和开发

模型通过有监督微调、强化学习和模型合并等技术开发而成，在保持小体积的同时实现了接近大模型的性能表现。

2. Ollama快速部署指南

2.1 环境准备

确保已安装最新版Ollama，支持Windows/macOS/Linux系统。推荐使用Python 3.8+环境，并确保有至少2GB可用内存。

2.2 模型部署步骤

启动Ollama服务：
```
ollama serve
```
下载granite-4.0-h-350m模型：
```
ollama pull granite4:350m-h
```
验证安装：
```
ollama list
```
应该能看到granite4:350m-h出现在模型列表中

2.3 基础使用示例

通过Python调用模型进行简单推理：

import ollama response = ollama.generate( model="granite4:350m-h", prompt="用中文写一封工作邮件，主题是请求项目延期" ) print(response["response"])

3. 中文指令微调实战

3.1 准备微调数据

建议准备500-1000条高质量中文指令-响应对，格式示例：

{ "instruction": "将以下文本总结为3个要点", "input": "人工智能正在改变...", "output": "1. AI技术快速发展...\n2. 应用场景广泛...\n3. 带来就业结构变化..." }

3.2 执行微调

使用以下命令启动微调过程：

ollama fine-tune granite4:350m-h \ --data ./zh_instructions.json \ --epochs 3 \ --learning-rate 1e-5 \ --output granite4-zh

关键参数说明：

--epochs：通常3-5个epoch足够
--learning-rate：建议1e-5到5e-5
--output：指定微调后模型名称

3.3 微调后模型使用

加载并使用微调后的模型：

response = ollama.generate( model="granite4-zh", prompt="用专业语气回复客户的技术咨询" )

4. 模型评估与优化

4.1 基础评估方法

人工评估指标：

相关性：回答是否切题
流畅度：中文表达是否自然
专业性：领域术语使用是否准确
创造性：对开放性问题的处理能力

自动化评估脚本示例：

def evaluate_response(prompt, response): # 计算响应长度适中(50-300字) length_ok = 50 <= len(response) <= 300 # 检查是否包含关键词 keywords = ["建议", "原因", "方案"] # 根据场景调整 keyword_hits = sum(kw in response for kw in keywords) return { "length_appropriate": length_ok, "keyword_coverage": keyword_hits/len(keywords), "response_time": response_time # 从ollama响应中获取 }

4.2 性能优化建议

提示工程技巧：
- 明确指令："用三点概括以下内容"
- 提供示例："类似这样的格式：1... 2... 3..."
- 指定风格："用正式商务口吻回答"

系统级优化：

ollama optimize granite4-zh \ --quantize 4bit \ --batch-size 32

5. 典型应用场景示例

5.1 中文客服自动回复

prompt = """作为电商客服，专业且友好地回复以下客户问题： 问题：我上周买的手机到现在还没收到，订单号XY123 回复要求：1.表达歉意 2.查询建议 3.后续跟进方式""" response = ollama.generate( model="granite4-zh", prompt=prompt )

5.2 技术文档摘要

prompt = """将以下技术文档摘要为200字内的中文概述： [粘贴技术文档内容]""" response = ollama.generate( model="granite4-zh", prompt=prompt, options={"temperature": 0.3} # 降低随机性 )

5.3 多轮对话处理

conversation = [ {"role": "user", "content": "推荐几个北京的美食"}, {"role": "assistant", "content": "北京烤鸭、炸酱面、涮羊肉都很有名"}, {"role": "user", "content": "哪个最适合带孩子吃?"} ] response = ollama.chat( model="granite4-zh", messages=conversation )