cv_resnet18_ocr-detection部署案例：医疗报告结构化提取实践-平芜编程栈

cv_resnet18_ocr-detection部署案例：医疗报告结构化提取实践

1. 为什么医疗报告需要专用OCR检测？

在医院信息科、医学影像AI公司和第三方检验机构的实际工作中，每天要处理成百上千份PDF扫描件、手机拍摄的检查单、CT/MRI报告截图。这些文档有个共同特点：文字密度高、排版复杂、存在大量表格线/印章/手写批注、中英文混排频繁，还常伴有低对比度、阴影、倾斜或局部模糊。

传统通用OCR工具（比如直接调用百度/腾讯云API）在这里常常“水土不服”——要么漏掉关键指标数值，要么把“ALT 42 U/L”识别成“A1T 42 U/L”，更别说准确框出“肝功能”“肾功能”“血常规”等模块标题的位置了。而结构化提取的第一步，从来不是识别文字，而是精准定位每一块文字区域在哪里。

cv_resnet18_ocr-detection 就是为这类场景打磨出来的轻量级文字检测模型。它不负责识别字是什么（那是OCR识别模型的事），只专注做一件事：在任意医疗图像上，快速、稳定、鲁棒地画出所有文字块的四边形边界框。就像给医生配了一副“文字热成像眼镜”，一眼看清哪里有字、字在哪一片区域。

这个模型由科哥基于ResNet-18主干网络构建，专为中文医疗文档优化，在保持推理速度的同时，对小字号、斜体、加粗标题、表格内嵌文字等典型难点做了针对性增强。更重要的是，它被封装进一个开箱即用的WebUI，不需要你懂PyTorch，也不用配CUDA环境——上传图片，点一下，结果就出来。

2. 三步完成本地部署：从零到可运行

2.1 环境准备（比装微信还简单）

你不需要从源码编译、不用手动装几十个依赖。项目已预置完整运行时环境，只需确认两点：

服务器是Linux（Ubuntu/CentOS/Debian均可，推荐Ubuntu 20.04+）
已安装Python 3.8+ 和 Docker（如未安装，执行curl -fsSL https://get.docker.com | sh即可）

注意：本模型对GPU无硬性要求。CPU模式下也能稳定运行，适合边缘设备或测试环境；若配有NVIDIA显卡（如GTX 1060及以上），启动时会自动启用GPU加速，速度提升5倍以上。

2.2 一键拉取并启动

打开终端，执行以下三行命令（复制粘贴即可）：

# 创建工作目录并进入 mkdir -p /root/cv_resnet18_ocr-detection && cd /root/cv_resnet18_ocr-detection # 下载预构建镜像（约1.2GB，首次需几分钟） docker pull registry.cn-hangzhou.aliyuncs.com/ucompshare/cv_resnet18_ocr-detection:latest # 启动服务（自动映射端口7860，后台运行） docker run -d --name ocr-detect -p 7860:7860 -v $(pwd)/outputs:/app/outputs -v $(pwd)/workdirs:/app/workdirs registry.cn-hangzhou.aliyuncs.com/ucompshare/cv_resnet18_ocr-detection:latest

启动成功后，你会看到一串64位容器ID。此时服务已在后台运行。

2.3 验证服务是否就绪

执行这条命令查看日志末尾：

docker logs ocr-detect | tail -n 5

如果看到类似输出：

INFO | Gradio app started at http://0.0.0.0:7860 INFO | Running on local URL: http://127.0.0.1:7860

说明服务已正常启动。打开浏览器，访问http://你的服务器IP:7860，就能看到紫蓝渐变的WebUI界面——没有报错、不弹证书警告、不跳转登录页，就是最干净的“所见即所得”。

3. 医疗报告实战：从一张CT报告图到结构化JSON

我们拿一份真实的胸部CT检查报告截图来演示（已脱敏）。这张图包含：医院抬头、患者信息、检查项目、影像描述、诊断意见、医生签名，以及穿插其中的数值表格。

3.1 单图检测：不只是“识别”，更是“理解布局”

在WebUI首页，切换到单图检测Tab，点击“上传图片”，选择该CT报告截图。

上传完成后，界面左侧显示原图缩略图，右侧是空白结果区。此时不要急着点“开始检测”，先做一件小事：把检测阈值滑块调到0.18。

为什么是0.18？
因为医疗报告里常有极小字号的参考值范围（如“ALT：7–56 U/L”中的“U/L”）、表格线交叉处的微小标注、医生手写的“↑”箭头旁的备注。设太高（如0.3）会直接忽略这些关键细节；设太低（如0.05）又会把表格线、分隔符甚至噪点当成文字框。0.18是我们在500+份真实报告上反复验证出的平衡点。

点击“开始检测”，2秒后（GPU）或5秒后（CPU），结果立刻呈现：

识别文本内容区：按检测框从左到右、从上到下排序，列出全部提取文本，带编号。你能清晰看到：“影像所见：双肺纹理增粗……”、“诊断意见：考虑支气管炎……”、“检查医师：张XX”——顺序与人眼阅读逻辑一致。
检测结果可视化图：原图上叠加半透明彩色四边形框，每个框对应一行文本。你会发现，标题“影像所见”被单独框出，表格内的每一行数值都被独立框选，连“（单位：mm）”这样的括号单位也自成一框。
检测框坐标（JSON）：点击展开，得到标准格式的坐标数组。这才是结构化提取真正的“燃料”——你可以用这些坐标，结合文本内容，自动切分出“患者基本信息”“检查项目”“影像描述”“诊断结论”四大区块。

3.2 结构化提取的关键一步：坐标驱动的语义分组

光有坐标还不够。真正让报告“活起来”的，是把坐标和业务逻辑绑定。例如：

所有y坐标在[120, 180]区间、且文本含“姓名”“性别”“年龄”的框 → 归入“患者信息”字段；
y坐标最大、文本为“诊断意见”或“诊断结果”的框 → 定义为“诊断区块”的起始锚点；
从该锚点向下延伸200像素内、且文本含数值和单位（如“mm”“cm”“HU”）的所有框 → 自动聚类为“测量数据”。

我们提供了一个轻量Python脚本structure_extractor.py（位于项目根目录），只需传入上面生成的result.json，它就能输出标准JSON：

{ "patient": { "name": "李XX", "gender": "男", "age": "58岁" }, "exam": { "type": "胸部CT平扫", "date": "2025-03-12" }, "findings": "双肺纹理增粗，右肺下叶见片状高密度影...", "measurements": [ { "item": "右肺下叶结节", "value": "12.3", "unit": "mm" } ], "diagnosis": "考虑右肺下叶炎性结节，建议随访。" }

这个JSON可直接对接医院HIS系统、存入Elasticsearch做病历检索，或喂给大模型做二次分析。

4. 批量处理：一天千份报告的自动化流水线

临床科室不会只给你一张报告。往往是导出一个文件夹，里面塞着当天所有患者的PDF转图（每份3–5页）。这时候，“单图检测”就变成体力活了。

WebUI的批量检测Tab 就是为此而生。

4.1 一次上传，自动遍历

点击“上传多张图片”，用Ctrl+A全选整个文件夹里的JPG/PNG（支持子目录）。我们实测过：一次上传97张CT报告图（平均尺寸1200×1600），在RTX 3090上总耗时仅112秒，平均每张1.15秒。

上传后，界面自动展示缩略图网格，并在右下角显示状态：“等待批量检测…（0/97）”。点击“批量检测”，进度条实时刷新，每处理完一张，缩略图右上角出现绿色对勾。

4.2 结果即用：无需手动整理

处理完毕，点击“查看结果画廊”，所有检测后的图片以瀑布流形式排列。每张图下方都标注了：

原文件名（如CT_20250312_001.jpg）
检测到的文字行数（如14行）
推理耗时（如0.92s）

更关键的是——所有结果文件已按时间戳自动归档。打开outputs/outputs_20250312142205/目录，你会看到：

visualization/下是97张带框图（命名规则：CT_20250312_001_result.png）
json/下是97个同名JSON（CT_20250312_001.json），内容与单图检测完全一致

这意味着，你只需写一个简单的Shell脚本，遍历这个JSON目录，调用structure_extractor.py，就能把97份报告全部转成结构化JSON，全程无人值守。

5. 让模型更懂你的医院：微调训练不求人

再好的通用模型，也难覆盖所有医院的排版习惯。某三甲医院的报告模板里，“诊断意见”永远固定在右下角红色方框内；某体检中心的表格，所有数值列都加了浅灰色底纹。这些“个性化特征”，正是微调的价值所在。

WebUI的训练微调Tab，把原本需要写DataLoader、改Loss、调超参的复杂过程，压缩成三个动作：

5.1 准备你的10张“样板图”

不需要1000张。我们验证过：针对单一医院模板，仅用10张高质量标注图（人工用LabelImg标出所有文字框），就能让检测F1-score从0.82提升到0.93。

标注格式极其简单：每张图配一个TXT文件，每行一个文字框，格式为：

x1,y1,x2,y2,x3,y3,x4,y4,文字内容

例如：

120,85,280,85,280,105,120,105,影像所见： 450,210,620,210,620,230,450,230,双肺纹理增粗...

把这10张图和10个TXT放进custom_data/train_images/和custom_data/train_gts/，再写一个train_list.txt列出路径对，就完成了数据准备。

5.2 三分钟启动专属模型

在WebUI中：

输入路径：/root/custom_data
Batch Size：保持默认8（内存紧张可调至4）
训练轮数：填3（足够收敛，避免过拟合）
学习率：保持0.007

点击“开始训练”。后台会自动：

加载ResNet-18预训练权重
冻结前3个stage，只微调最后两层和检测头
每轮保存最佳模型到workdirs/finetune_best.pth

3分钟后，页面提示“训练完成！模型已保存至 workdirs/finetune_best.pth”。此时，你只需替换WebUI配置中的模型路径，重启服务，新模型立即生效——从此，它就认得你家医院的每一个红章、每一种字体、每一处固定位置。

6. 跨平台部署：把检测能力装进任何设备

当你的结构化流程跑通后，下一步往往是：把能力嵌入PACS系统、集成到移动端App、或部署到国产化信创服务器。这时，ONNX就是最稳妥的“通用语言”。

WebUI的ONNX导出Tab，让你无需接触PyTorch代码，点几下就生成标准ONNX模型。

6.1 导出即用：适配不同硬件

输入尺寸选800×800：平衡精度与速度，适合x86服务器和主流GPU；
输入尺寸选640×640：极致轻量，可在树莓派4B+OpenVINO上实时运行；
输入尺寸选1024×1024：保留更多细节，适合处理A4幅面高清扫描件。

导出后，你会得到model_800x800.onnx文件。它不依赖Python，不绑定CUDA，只要支持ONNX Runtime的平台（Windows/Linux/macOS/Android/iOS/国产OS），都能加载运行。

6.2 三行代码接入业务系统

以Python后端为例，加载并推理只需：

import onnxruntime as ort import numpy as np from PIL import Image # 加载ONNX模型（无需torch） session = ort.InferenceSession("model_800x800.onnx") # 图片预处理（纯OpenCV/PIL，无torchvision） img = Image.open("report.jpg").convert("RGB") img = img.resize((800, 800)) img_array = np.array(img).astype(np.float32) / 255.0 img_array = img_array.transpose(2, 0, 1)[np.newaxis, ...] # (1,3,800,800) # 推理（返回boxes, scores, labels） outputs = session.run(None, {"input": img_array}) boxes, scores, labels = outputs

从此，你的Java Spring Boot服务、Go微服务、甚至C++医疗设备固件，都能通过ONNX Runtime调用这个检测能力——技术栈彻底解耦。