如何快速上手PP-OCRv6_medium_det：10分钟实现多语言文本检测的完整指南-平芜编程栈

如何快速上手PP-OCRv6_medium_det：10分钟实现多语言文本检测的完整指南

【免费下载链接】PP-OCRv6_medium_det项目地址: https://ai.gitcode.com/paddlepaddle/PP-OCRv6_medium_det

PP-OCRv6_medium_det是飞桨PaddlePaddle推出的一款高效文本检测工具，作为PP-OCRv6系列中的中型模型，它采用LCNetV4作为骨干网络和RepLKFPN作为特征金字塔颈部，能够精准定位多种场景下的文本，包括手写体、印刷体、旋转文本、弯曲文本和艺术字等多种语言文本，模型仅包含15.5M参数，却能在多种场景下提供卓越的文本检测性能。

为什么选择PP-OCRv6_medium_det？

PP-OCRv6_medium_det作为PP-OCRv6检测系列中最大的模型，具备以下核心优势：

强大的检测性能

在平均检测Hmean指标上达到86.2%，在多个细分场景中表现出色，如印刷中文达到95.1%，印刷英文达到93.7%，在模糊、旋转、工业场景等方面也有优异表现，超越了许多大模型，如在平均指标上超过Gemini-3.1-Pro、GPT-5.5、Qwen3-VL-235B等（具体数据可参考模型性能对比表）。

多语言与多场景支持

支持48种语言以及多样化的工业场景，如数字显示、点阵字符、轮胎印记等，能够满足不同用户在各种场景下的文本检测需求。

轻量级架构

采用轻量级架构创新，包括MetaFormer风格的轻量级骨干网络LCNetV4、带有膨胀可重参数化深度卷积的检测颈部RepLKFPN等，在保证性能的同时，降低了模型的参数规模和计算复杂度，便于部署和使用。

10分钟快速安装指南

安装PaddleOCR

PP-OCRv6_medium_det基于PaddleOCR框架，首先需要安装PaddleOCR。可以选择安装基础版本或完整版本，基础版本包含核心功能，完整版本则包含所有特性。

# 安装基础版本 pip install paddleocr # 安装完整版本（包含所有功能） pip install "paddleocr[all]"

该模型默认使用paddle_static推理引擎，使用前请先完成PaddlePaddle安装。

快速体验文本检测功能

命令行快速体验

通过一条命令即可快速体验PP-OCRv6_medium_det的文本检测功能，无需编写代码，方便快捷。

paddleocr text_detection \ --model_name PP-OCRv6_medium_det \ -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/3ul2Rq4Sk5Cn-l69D695U.png

项目集成使用

如果需要将文本检测模块集成到自己的项目中，也非常简单。首先下载示例图像到本地，然后使用以下Python代码进行推理。

from paddleocr import TextDetection model = TextDetection(model_name="PP-OCRv6_medium_det") output = model.predict(input="3ul2Rq4Sk5Cn-l69D695U.png", batch_size=1) for res in output: res.print() res.save_to_img(save_path="./output/") res.save_to_json(save_path="./output/res.json")

OCR完整 pipeline 使用

什么是OCR pipeline？

通用的OCR pipeline用于从图像中提取文本信息，它由多个模块组成，包括文档图像方向分类模块（可选）、文本图像校正模块（可选）、文本行方向分类模块（可选）、文本检测模块和文本识别模块。

命令行运行OCR pipeline

通过一条命令即可快速体验完整的OCR pipeline，结合文本检测和文本识别功能。

paddleocr ocr -i https://cdn-uploads.huggingface.co/production/uploads/681c1ecd9539bdde5ae1733c/3ul2Rq4Sk5Cn-l69D695U.png \ --text_detection_model_name PP-OCRv6_medium_det \ --text_recognition_model_name PP-OCRv6_medium_rec \ --use_doc_orientation_classify False \ --use_doc_unwarping False \ --use_textline_orientation True \ --save_path ./output \ --device gpu:0

项目中集成OCR pipeline

在项目中集成OCR pipeline也很方便，以下是示例代码：

from paddleocr import PaddleOCR ocr = PaddleOCR( text_detection_model_name="PP-OCRv6_medium_det", text_recognition_model_name="PP-OCRv6_medium_rec", use_doc_orientation_classify=False, use_doc_unwarping=False, use_textline_orientation=False, ) result = ocr.predict("./3ul2Rq4Sk5Cn-l69D695U.png") for res in result: res.print() res.save_to_img("output") res.save_to_json("output")

模型性能对比

PP-OCRv6_medium_det在多种场景和语言上的检测性能表现优异，以下是与其他模型的对比数据：

Model	Average	Handwritten CN	Handwritten EN	Printed CN	Printed EN	Traditional Chinese	Ancient Text	Japanese	Blur	Emoji	Warp	Pinyin	Artistic	Table	Rotation	Industrial	General
Gemini-3.1-Pro	46.8	53.4	56.5	47.3	47.6	39.0	45.8	38.2	50.0	68.1	44.6	40.6	65.2	26.9	22.1	52.5	50.2
GPT-5.5	45.6	42.4	58.5	50.2	51.9	35.0	26.7	42.0	49.1	97.5	37.7	36.3	52.0	71.0	10.0	36.2	32.6
Qwen3-VL-235B	38.3	56.5	66.0	41.7	37.0	19.3	13.1	27.0	38.5	81.2	28.5	33.0	68.3	19.6	2.1	48.4	32.3
PP-OCRv5_server	81.6	80.3	84.1	94.5	91.7	81.5	67.6	77.2	90.1	96.2	87.6	67.1	67.3	97.1	80.0	64.3	79.7
PP-OCRv6_medium	86.2	83.7	84.0	95.1	93.7	86.3	80.2	84.3	94.1	99.6	88.6	74.0	69.0	96.8	93.8	73.3	82.8