MinerU 系列教程 第九篇
本篇教程进入模块三:深入篇 - AI 模型详解,将聚焦 Pipeline 后端的第一个核心模型 —— PP-DocLayout V2 版面分析模型。版面分析是整个文档解析流水线的起点:它负责识别页面中每一个元素的类型(标题、文本、表格、图片、公式等)和位置,并预测人类自然的阅读顺序。你将看到基于 RT-DETR 架构的目标检测器如何在 800x800 的归一化图像上识别 25 种文档元素,以及一个独立的 Reading Order 头如何利用空间注意力编码预测阅读序列。
学习目标
完成本课学习后,你将能够:
- 理解版面分析在文档解析流水线中的核心角色
- 掌握 PP-DocLayout V2 的 RT-DETR 架构(HGNet V2-L 主干 + Transformer 编码器/解码器)
- 了解 25 种文档元素类别的定义及其置信度阈值配置
- 理解阅读顺序预测头(Reading Order Head)的工作原理
- 掌握图像预处理(800x800 归一化)和后处理(阈值过滤、去重、公式重标注)的完整流程
- 读懂
mineru/model/layout/pp_doclayoutv2.py的完整代码结构