Chandra OCR企业级运维：Prometheus监控vLLM GPU利用率+OCR请求延迟告警-平芜编程栈

Chandra OCR企业级运维：Prometheus监控vLLM GPU利用率+OCR请求延迟告警

1. 为什么Chandra OCR值得放进生产环境

你有没有遇到过这样的场景：法务部门甩来500页扫描版PDF合同，要当天入库做RAG检索；教研组发来一叠手写数学试卷，需要转成结构化Markdown供AI批改；或者市场部急着把上百张带表格的宣传册图片，批量生成可编辑HTML页面——而你手里的OCR工具要么漏掉公式、要么打乱表格顺序、要么把复选框识别成乱码。

Chandra不是又一个“能识字”的OCR模型。它是Datalab.to在2025年10月开源的「布局感知」OCR系统，核心目标很明确：不只要识别文字，更要还原人类阅读时的视觉逻辑。它能把一张扫描图或PDF，原样输出为带层级标题、分栏标记、表格结构、公式块、图像坐标和表单元素的Markdown/HTML/JSON三格式，且所有排版信息都可被下游系统直接消费。

官方在olmOCR基准测试中拿下83.1综合分——这个数字背后是实打实的能力：老式扫描数学题识别率80.3、复杂表格88.0、密排小字号92.3，全部位列单项第一。更关键的是，它对硬件极其友好：4GB显存的RTX 3060就能跑通，单页平均处理耗时仅1秒（vLLM后端，8k token上下文），而且开箱即用，不用调参、不需微调、不依赖云服务。

这不是实验室玩具。这是能塞进你现有K8s集群、挂上Prometheus、配好告警规则、周一早上就上线跑合同解析任务的生产级OCR引擎。

2. 部署架构：vLLM才是Chandra真正落地的“心脏”

Chandra提供两种推理后端：HuggingFace Transformers本地加载，和vLLM远程服务。但如果你打算把它放进企业运维体系，必须选vLLM——不是因为它更快，而是因为它让OCR从“单机脚本”变成了“可观测服务”。

HuggingFace方案适合调试和小批量验证：pip install chandra-ocr后，一条命令就能跑通：

chandra-ocr --input ./scans/ --output ./md/ --format markdown

但它本质是Python进程，GPU占用不可控、并发能力弱、无健康探针、无指标暴露。而vLLM方案完全不同：它把Chandra封装成标准HTTP API服务，自带异步批处理、动态批调度、PagedAttention内存管理，并原生支持Prometheus指标导出端点/metrics。

部署只需三步：

拉取预构建镜像（官方提供CUDA 12.1兼容版）：
```
docker pull datalabto/chandra-vllm:latest
```

启动容器，暴露指标端口并启用GPU：

docker run -d \ --gpus all \ --shm-size=2g \ -p 8000:8000 \ -p 8001:8001 \ # Prometheus metrics端口 -v $(pwd)/models:/models \ --name chandra-vllm \ datalabto/chandra-vllm:latest \ --model /models/chandra-ocr \ --tensor-parallel-size 2 \ # 关键！双卡必须设为2 --gpu-memory-utilization 0.95 \ --max-num-seqs 32

验证服务健康状态：

curl http://localhost:8000/health # 返回 {"status":"healthy","model":"chandra-ocr"}

注意那个--tensor-parallel-size 2参数——这就是文档里强调的“两张卡，一张卡起不来”的原因。Chandra的ViT-Encoder+Decoder架构在vLLM中默认按GPU数量切分张量，单卡启动会因显存分配失败而崩溃。这不是bug，是设计选择：它强制你用多卡获得稳定吞吐，也让你天然具备横向扩展能力。

3. Prometheus监控实战：从GPU挤占到请求超时的全链路观测

vLLM暴露的指标超过40个，但对Chandra OCR运维，我们只盯紧5个黄金指标。它们覆盖了资源瓶颈、服务健康、业务质量三个层面。

3.1 GPU资源水位：vllm_gpu_cache_usage_ratio

这是最危险的指标。当它持续高于0.9，说明vLLM的KV缓存已逼近极限，新请求将排队等待，延迟飙升。

在Prometheus中配置告警规则：

- alert: ChandraGPUCacheHigh expr: 100 * avg by(instance) (vllm_gpu_cache_usage_ratio{job="chandra-vllm"}) > 92 for: 2m labels: severity: warning annotations: summary: "Chandra GPU缓存使用率过高 ({{ $value }}%)" description: "实例 {{ $labels.instance }} GPU缓存使用率持续超92%，OCR请求延迟将显著上升，请检查是否出现大尺寸PDF或高并发突增。"

为什么是92%而不是95%？因为vLLM的缓存管理有抖动，留3%缓冲可避免误报。实测中，该阈值能提前15秒捕获GPU瓶颈，比NVIDIA DCGM的gpu_util指标更敏感——后者只反映计算单元忙闲，而gpu_cache_usage_ratio直接关联OCR吞吐能力。

3.2 请求延迟基线：chandra_ocr_request_latency_seconds

Chandra的SLA是P95延迟≤1.5秒（A4纸扫描件，含表格）。我们用vLLM的vllm_request_latency_seconds指标，但需二次加工——因为原始指标包含所有请求，而OCR真正的业务请求是POST/v1/chat/completions且model=chandra-ocr的调用。

在Prometheus中定义记录规则：

chandra_ocr_p95_latency: histogram_quantile(0.95, sum(rate(vllm_request_latency_seconds_bucket{model="chandra-ocr", route="/v1/chat/completions"}[5m])) by (le))

再基于此设置告警：

- alert: ChandraOCRLatencyHigh expr: chandra_ocr_p95_latency > 1.8 for: 1m labels: severity: critical annotations: summary: "Chandra OCR P95延迟超1.8秒" description: "当前P95延迟为 {{ $value }}秒，超出SLA 0.3秒。请立即检查：1) GPU缓存是否饱和；2) 输入文件是否含超大图像（>10MB）；3) 是否存在未压缩的TIFF格式扫描件。"

3.3 错误请求追踪：vllm_num_aborted_requests_total

这个计数器统计被vLLM主动中止的请求，常见原因包括：超时、OOM、输入token超限。对Chandra而言，最常触发的是PDF解析阶段的内存溢出——当一页PDF含100+张嵌入图时，ViT Encoder可能耗尽显存。

告警配置：

- alert: ChandraAbortedRequestsHigh expr: rate(vllm_num_aborted_requests_total{model="chandra-ocr"}[5m]) > 0.1 for: 30s labels: severity: warning annotations: summary: "Chandra中止请求率过高 ({{ $value }}/s)" description: "每秒中止请求超0.1次，表明输入负载异常。请检查上游是否发送了未预处理的原始扫描PDF（应先用pdftoppm转为JPEG）或是否启用了`--max-num-seqs 32`导致队列积压。"

3.4 服务可用性：vllm_is_alive

最朴素却最关键的指标。vLLM每10秒向/health端点发送自检请求，失败则置0。

- alert: ChandraServiceDown expr: vllm_is_alive{job="chandra-vllm"} == 0 for: 30s labels: severity: critical annotations: summary: "Chandra vLLM服务离线" description: "实例 {{ $labels.instance }} 的健康检查失败。请立即登录容器执行：docker logs chandra-vllm | tail -20，重点关注CUDA初始化错误或模型权重加载失败日志。"

3.5 并发连接数：vllm_num_requests_running

它告诉你当前有多少OCR请求正在GPU上执行。结合vllm_num_requests_waiting（排队中请求数），可判断系统是否过载。

健康状态公式：running < 0.7 * max-num-seqs
当running持续接近32（我们设的上限），且waiting>5，说明vLLM调度器已满负荷，此时即使GPU利用率不高，延迟也会跳升——因为请求在CPU侧排队。

4. Grafana看板：三屏定位问题根因

我们搭建了三个核心看板，每个解决一类问题：

4.1 GPU资源看板：聚焦显存与缓存

主图表：vllm_gpu_cache_usage_ratio时间序列（双Y轴：左为比率，右为nvidia_smi_duty_cycle）
辅助图表：vllm_gpu_free_memory_bytes（剩余显存）与vllm_gpu_used_memory_bytes（已用显存）堆叠图
关键洞察：当缓存使用率>90%但显存使用率<70%，说明是KV缓存碎片化而非显存不足，需重启vLLM释放；若两者同步飙升，则是真实资源瓶颈，需扩容GPU。

4.2 请求性能看板：延迟与错误率联动分析

主图表：chandra_ocr_p95_latency+rate(vllm_num_aborted_requests_total[5m])
辅助图表：vllm_num_requests_running与vllm_num_requests_waiting对比柱状图
关键洞察：当延迟上升同时aborted_requests激增，大概率是某类输入（如含公式的PDF）触发了模型OOM；若延迟上升但aborted_requests平稳，则是GPU缓存竞争，需调低--gpu-memory-utilization。

4.3 输入质量看板：从OCR结果反推上游问题

Chandra的API返回中包含metadata字段，记录实际处理的token数、图像分辨率、检测到的表格数量等。我们用Logstash采集这些字段，导入Elasticsearch后，在Grafana中构建：

表格密度热力图：X轴为页面宽度像素，Y轴为表格数量，气泡大小代表P95延迟
公式占比趋势：统计含$$或\begin{equation}的响应比例，与延迟曲线叠加
关键发现：当页面宽度>3000px且含>3个表格时，延迟中位数跳升至2.1秒——这提示我们应在前置ETL中对超宽扫描件做自动裁剪。

5. 告警响应手册：从收到通知到恢复服务的5分钟SOP

收到Prometheus告警后，运维人员按此流程操作，平均恢复时间控制在5分钟内：

5.1 GPU缓存过高告警（ChandraGPUCacheHigh）

立即检查：curl http://chandra-metrics:8001/metrics | grep vllm_gpu_cache_usage_ratio
临时缓解：降低并发压力，执行docker exec chandra-vllm vllm-cli stop然后重启容器（缓存重置）
根治措施：检查最近提交的PDF，用pdfinfo确认是否含高DPI扫描（>300dpi），添加预处理步骤：convert -density 150 input.pdf -quality 85 output.pdf

5.2 OCR延迟超时告警（ChandraOCRLatencyHigh）

定位慢请求：查Grafana“输入质量看板”，筛选高延迟时段的page_width > 2500样本
验证假设：用chandra-ocr --input test.pdf --debug本地运行，观察日志中[ViT-Encoder] processing time是否>800ms
上线修复：在K8s Deployment中添加--max-model-len 4096参数限制最大上下文，避免单页过大拖垮全局