通义千问3-4B性能监控：Prometheus+Grafana集成教程-平芜编程栈

通义千问3-4B性能监控：Prometheus+Grafana集成教程

1. 为什么小模型也需要专业监控？

你可能觉得：“不就是个4B的小模型吗？跑起来能出什么问题？”
但现实是——越轻量的模型，越容易在真实部署中“悄无声息地掉链子”。

比如：

在树莓派上跑着跑着显存突然爆了，进程被OOM Killer干掉；
手机端连续处理5条长文本请求后，响应延迟从300ms跳到2.8秒，用户已经划走了；
RAG服务里它作为重排模块，吞吐量忽高忽低，导致整个流水线卡顿；
Agent调用时偶尔返回空响应，日志里却只有一行"model returned empty"，根本看不出是OOM、CUDA error还是token截断。

这些问题，光靠ps aux或nvidia-smi轮询根本抓不住——它们发生得快、持续时间短、没有明显报错。而通义千问3-4B-Instruct-2507这类主打“端侧可用、长文本、非推理”的模型，恰恰最需要稳定、细粒度、可回溯的运行状态感知。

这正是Prometheus + Grafana的价值：
不侵入模型代码，通过标准HTTP指标端点采集；
支持毫秒级采样，捕获瞬时抖动；
可关联GPU温度、内存占用、请求队列长度等多维信号；
一键生成告警规则，比如“连续3次P95延迟 > 1.2s”自动通知。

本教程不讲概念、不堆参数，只带你用不到20分钟，给Qwen3-4B-Instruct-2507装上“数字心电图”，让它在哪卡、为什么卡、卡了多久，一目了然。

前置说明：本教程默认你已成功运行Qwen3-4B-Instruct-2507（通过vLLM/Ollama/LMStudio任一方式），且具备基础Linux命令能力。全程无需修改模型源码，零Python开发。

2. 环境准备：三步完成基础搭建

2.1 确认模型已暴露指标端点

Qwen3-4B-Instruct-2507本身不直接提供metrics接口，但主流推理框架均已原生支持Prometheus指标导出：

框架	是否默认启用指标	默认端口	关键配置项
vLLM 0.6.3+	是	`8000`	启动时加`--enable-metrics`
Ollama 0.3.10+	是	`11434`	无需额外配置，`/metrics`自动可用
LMStudio 0.2.29+	否	—	需切换至vLLM/Ollama部署

验证方法（任选其一）：

# 若用vLLM启动（示例） python -m vllm.entrypoints.api_server \ --model Qwen/Qwen3-4B-Instruct-2507 \ --enable-metrics \ --host 0.0.0.0 \ --port 8000 # 测试指标端点是否就绪 curl -s http://localhost:8000/metrics | head -n 5

正常应返回类似：

# HELP vllm:gpu_cache_usage_ratio GPU KV cache usage ratio # TYPE vllm:gpu_cache_usage_ratio gauge vllm:gpu_cache_usage_ratio{gpu_id="0"} 0.342 # HELP vllm:request_prompt_tokens_total Number of tokens in prompts # TYPE vllm:request_prompt_tokens_total counter

注意：若返回404，请检查框架版本并确认启动参数含--enable-metrics（vLLM）或升级Ollama至最新版。

2.2 部署Prometheus（单机轻量版）

我们采用prometheus.yml最小化配置，仅监控本地模型服务：

# 保存为 prometheus.yml global: scrape_interval: 5s evaluation_interval: 5s scrape_configs: - job_name: 'qwen3-4b' static_configs: - targets: ['localhost:8000'] # vLLM地址 # 若用Ollama，改为 ['localhost:11434'] metrics_path: '/metrics' scheme: 'http'

启动Prometheus（无需Docker）：

# 下载并解压（Linux x64） wget https://github.com/prometheus/prometheus/releases/download/v2.49.1/prometheus-2.49.1.linux-amd64.tar.gz tar -xzf prometheus-2.49.1.linux-amd64.tar.gz cd prometheus-2.49.1.linux-amd64 # 启动（后台运行） nohup ./prometheus --config.file=prometheus.yml --web.listen-address=":9090" > prometheus.log 2>&1 &

验证：浏览器打开http://localhost:9090/targets，状态应为UP；
查询测试：在http://localhost:9090/graph输入rate(vllm:request_success_total[1m])，应看到每分钟成功请求数曲线。

2.3 部署Grafana（极简模式）

同样免Docker，直接二进制运行：

# 下载Grafana（v10.4.0，轻量版） wget https://dl.grafana.com/oss/release/grafana-10.4.0.linux-amd64.tar.gz tar -xzf grafana-10.4.0.linux-amd64.tar.gz cd grafana-10.4.0 # 启动（默认端口3000，账号admin/admin） ./bin/grafana-server --homepath conf --config conf/defaults.ini &

验证：访问http://localhost:3000，首次登录用admin/admin，按提示重置密码。

3. 核心监控看板：5个关键指标直击痛点

3.1 模型“心跳”与稳定性（uptime & health）

不是所有崩溃都伴随报错。有些是静默退出，有些是进程僵死。我们用两个指标交叉验证：

process_start_time_seconds：进程启动时间戳 → 计算time() - process_start_time_seconds即运行时长
vllm:request_success_total：成功请求数 → 若1分钟内增量为0，说明服务无响应

Grafana查询（Metrics面板）：

# 运行时长（小时） (time() - process_start_time_seconds) / 3600 # 近5分钟成功率（避免瞬时抖动） rate(vllm:request_success_total[5m]) / rate(vllm:request_total[5m])

实用技巧：添加Alert Rule，当运行时长 < 300且成功率 < 0.1同时触发，即判定为“意外重启”。

3.2 延迟真相：P50/P95/P99不是玄学

Qwen3-4B标称RTX3060达120 tokens/s，但实际业务中，用户感知的是端到端延迟（从发请求到收完整响应）。vLLM暴露的vllm:request_latency_seconds正是这个值。

Grafana配置（Time series面板）：

Query:histogram_quantile(0.95, sum(rate(vllm:request_latency_seconds_bucket[5m])) by (le))
Legend:P95延迟
同理添加P50、P99，三线对比

关键洞察：

若P50=400ms，P95=2.1s，说明20%请求严重拖慢 → 检查是否长文本集中到达；
若P99突然飙升至5s+，大概率是GPU显存碎片化，需重启服务。

3.3 显存水位：别让“4GB GGUF”骗了你

GGUF量化后模型仅4GB，但vLLM运行时需额外KV Cache显存。Qwen3-4B原生256K上下文，满载时显存占用可达10~12GB（RTX3060 12GB版刚好卡在临界点）。

监控指标：

vllm:gpu_cache_usage_ratio：KV Cache使用率（0~1）
process_resident_memory_bytes：进程常驻内存（含CPU内存）

Grafana双Y轴面板（Bar gauge + Time series）：

左Y轴（Bar）：vllm:gpu_cache_usage_ratio * 100→ 显示百分比
右Y轴（Line）：process_resident_memory_bytes / 1024 / 1024 / 1024→ GB单位

健康阈值：GPU Cache使用率持续 > 0.85 且 P95延迟同步上升 → 需降低--max-num-seqs或启用--block-size 16。

3.4 吞吐瓶颈定位：是CPU、GPU还是网络？

一个请求的生命周期涉及：
① CPU预处理（tokenize）→ ② GPU推理 → ③ CPU后处理（detokenize）→ ④ 网络传输

vLLM将各阶段耗时拆解为独立指标：

指标名	含义	健康值
`vllm:time_in_queue_seconds`	请求排队等待时间	< 50ms
`vllm:time_in_generate_seconds`	GPU纯推理耗时	占总延迟60%~80%
`vllm:time_in_decode_seconds`	CPU解码耗时	< 总延迟15%

Grafana查询（Table面板）：

# 各阶段耗时占比（最近1分钟平均） sum(rate(vllm:time_in_queue_seconds_sum[1m])) by (job) / sum(rate(vllm:request_latency_seconds_sum[1m])) by (job)

场景诊断：

若queue占比 > 30%→ 并发请求超负载，需调大--max-num-seqs或加负载均衡；
若decode占比 > 25%→ CPU成为瓶颈，考虑升级CPU或减少输出长度；
若generate占比 < 50%→ GPU未被充分利用，检查是否batch_size过小。

3.5 长文本专项：256K上下文的真实压力

Qwen3-4B主打256K上下文，但“能跑”不等于“跑得稳”。我们重点监控两项：

vllm:seq_group_waiting_num：等待调度的序列组数 → 持续>0说明请求积压
vllm:gpu_kv_cache_pool_used_bytes：KV Cache已用字节数 → 对比vllm:gpu_kv_cache_pool_capacity_bytes

Grafana组合面板（Stat + Gauge）：

Stat显示：vllm:seq_group_waiting_num当前值（红色预警 > 3）
Gauge显示：vllm:gpu_kv_cache_pool_used_bytes / vllm:gpu_kv_cache_pool_capacity_bytes（进度条）

实测建议：当处理200K token文档时，若KV Cache使用率 > 0.92，建议主动限制--max-model-len 196608，预留缓冲空间防OOM。

4. 一键导入：开箱即用的Qwen3-4B监控看板

为节省你手动配置时间，我们已打包好适配Qwen3-4B-Instruct-2507的Grafana看板JSON（含全部上述5个面板+告警规则）：

# 下载看板文件 wget https://csdn-665-inscode.s3.cn-north-1.jdcloud-oss.com/inscode/202601/qwen3-4b-monitor-dashboard.json # 在Grafana界面操作： # ① 左侧菜单 → Dashboards → Import # ② 上传该JSON文件 # ③ Data Source选择你的Prometheus实例（默认Prometheus） # ④ 点击Load

导入后，你将获得：
自动适配vLLM/Ollama指标命名；
所有面板带中文标签和单位；
内置3条生产级告警：

Qwen3-4B_P95_Latency_High（P95 > 1.5s持续2分钟）
Qwen3-4B_GPU_Cache_Full（KV Cache使用率 > 0.95）
Qwen3-4B_Service_Down（连续5次请求失败）

注意：告警需在Grafana Alerting中配置通知渠道（如邮件/Webhook），本教程不展开配置细节。

5. 进阶技巧：让监控真正驱动优化

监控不是摆设，而是调优的指南针。以下是基于真实部署的3个实战技巧：

5.1 用监控数据反推最优batch_size

Qwen3-4B在RTX3060上，不同batch_size对吞吐影响极大：

--max-num-seqs 32：P95延迟≈800ms，吞吐≈42 req/s
--max-num-seqs 64：P95延迟≈1.4s，吞吐≈58 req/s（+38%）
--max-num-seqs 128：P95延迟≈3.2s，吞吐≈51 req/s（下降）

操作步骤：

在Grafana中创建Panel，X轴为batch_size（手动标注），Y轴为rate(vllm:request_success_total[1m])；
连续测试3组batch_size，记录吞吐与P95；
找到“吞吐增长拐点”——即再增大batch_size，吞吐提升<5%但延迟激增，此即最优值。

5.2 发现“隐形”长尾请求

有时95%请求很快，但5%请求极慢，拉高整体P95。用Prometheus的histogram_quantile精准定位：

# 查找P99.9延迟异常高的请求（排除噪声） histogram_quantile(0.999, sum(rate(vllm:request_latency_seconds_bucket[1h])) by (le)) > histogram_quantile(0.95, sum(rate(vllm:request_latency_seconds_bucket[1h])) by (le)) * 3

结果可导出为CSV，结合日志分析：这些超长请求是否都含特定pattern？（如含大量emoji、特殊符号、或固定长度的base64文本）

5.3 监控即文档：自动生成部署报告

将关键指标固化为Markdown报告，每次部署后自动生成：

# 使用curl + jq生成简易报告 cat << EOF > qwen3-4b-deploy-report.md # Qwen3-4B-Instruct-2507 部署健康报告（$(date)） - **当前运行时长**：$(echo "scale=1; $(($(date +%s) - $(curl -s http://localhost:9090/api/v1/query\?query=process_start_time_seconds | jq -r '.data.result[0].value[1]')))/3600" | bc) 小时 - **P95延迟（5m）**：$(curl -s "http://localhost:9090/api/v1/query?query=histogram_quantile(0.95%2C%20sum(rate(vllm:request_latency_seconds_bucket%5B5m%5D))%20by%20(le))" | jq -r '.data.result[0].value[1]') 秒 - **GPU Cache使用率**：$(curl -s "http://localhost:9090/api/v1/query?query=vllm:gpu_cache_usage_ratio" | jq -r '.data.result[0].value[1]') EOF