大模型RAG系统构建：PDF文档解析、切分与检索的完整代码教程-平芜编程栈

文章详细介绍了金融领域RAG系统的技术实现，从PDF文档到向量索引的完整流程：解析阶段将PDF转为结构化对象树保留文档结构；切分阶段基于语义边界生成带元数据的文本块；向量化阶段将文本转为向量表示；存储采用双库联动机制；检索模块实现向量与BM25关键词的混合检索架构，并通过Cross-Encoder精排。强调代码优化需围绕具体业务场景需求，如金融领域对专业术语的精准召回。

开篇

在之前的[一个金融研报RAG应用：「离线解析」和「在线问答」双链路详解]文章中，是从RAG系统的上帝视角，梳理了数据从入库到检索的流动逻辑。但当真的有一堆文档需要作为知识库给模型的时候，好像还是无从下手。😶

这篇文章是接着之前的金融研报项目，深入代码层面，梳理了从保险PDF文档到向量检索的代码逻辑。一共会分为四个部分，先从数据的角度梳理整个流程，再分别展开解析、切分、检索这三个模块～

（后面三章涉及到的代码会比较多，如果不太看得懂代码的话，可以看一看代码注释理解一下逻辑～）

从「静态文档」到「向量索引」

一个PDF文档「入库」的过程可以拆解为以下四个状态流转：

PARSED（已解析）-> CHUNKED（已切分）-> EMBEDDED（已向量化）-> INDEXED（已索引）

1、解析阶段：不仅仅是提取文字

如果只是简单的提取文本（text = pdf.read()），就会丢失掉最重要的**结构信息。**标题、正文、页眉、页脚、表格如果全部混成一团字符串，后面的切分就会一团糟。🤯

因此在工业级RAG中，解析阶段的输出不是一段文本，而是一个结构化的文档对象树：

层级结构：谁是父章节，谁是子章节。
样式信息：字号、加粗、缩进（这些是判断标题级别的重要依据）。
版面信息：表格的行列关系、图片的上下文位置。

👉 在这个阶段，文档仅仅只是被「看懂」了。

2、切分阶段：元数据的诞生之地

拿着上一步得到的结构化对象就可以开始切分了。

这个阶段的核心任务有两个：

确定边界：利用解析阶段得到的章节、段落信息，尽量让切分点落在自然的语义边界上（比如句号、段落结束符），而不是生硬地切断一句话。
生成元数据（Metadata）：不是切完就扔进数据库，而是在切分的同时，给每个Chunk办一张身份证：🪪

chunk_id：它的唯一标识。
section_path：它属于《保险条款》>第二章>责任免除。
page_num：它在第 15 页。
prev/next_id：它的前文是Chunk A，后文是Chunk B。

👉 此时得到的是一批「携带丰富身份信息的文本块」。

3、向量化阶段：文本转数学

在这个阶段，系统会遍历上一步生成的所有Chunk，提取其中的content字段，调用 Embedding 模型（如bge-large-zh），将其转化为一个高维向量。

👉 这里只对文本做向量化，元数据通常不需要向量化，而是直接存储用于过滤。

4、存储与索引：双库联动

存完了是不是就能检索了呢？

还不可以～为了兼顾「搜得准」和「看得懂」，通常会把数据存两份（逻辑上是这样，具体按情况而定～）：

向量索引：存放chunk_id+vector。
👉 用来算余弦相似度，快速找到Top-K的chunk_id。
文档存储：存放chunk_id+text+metadata。
👉 用来存原始内容。当向量索引找到ID后，去这里把人能看懂的字和元数据也捞出来。

再回顾一下这条链路～

PDF-> 解析成结构化对象。
结构化对象-> 切分成带元数据的Chunk。
Chunk-> 向量化成Vector。
Vector-> 建索引，发布上线。
在线检索-> Query 变向量，去索引里找 Chunk，最后由 LLM 生成答案。

搞清楚了整体的流程，接下来深入到每一个环节的代码实现，就会发现：所有复杂的代码，无非是在为这张流程图里的某一个箭头做优化。👇

解析模块

解析的质量直接决定了RAG的上限。

虽然可以直接使用通用的PyPDF2，但结果可能会不尽人意；也可以使用Deepdoc (LayoutLMv3 + PaddleOCR)，但面对复杂场景仍需定制化改造。👇

1、攻克表格解析

保险文档中最难处理的是表格。文档中存在三类表格，单一的解决方案无法通吃。这个项目中设计了一套分流策略：

有边框表格：Deepdoc 原生处理（准确率 95%）。
无边框/半结构化表格：这是重灾区，Deepdoc识别率仅62%。

针对无边框表格，引入MinerU 2.5，但因为它推理慢，不能全部都用这个方法，需要在解析前置加一个分类器，只对由于「对齐」但「无框」的区域调用MinerU：

2、扫描件的去噪与去水印

金融存量文档中有30%是扫描件，且常常会带有「仅供内部使用」的红色印章或水印。这些干扰会导致 OCR 将文字识别为乱码。

这个项目的做法是摒弃传统的全局高斯滤波（会模糊文字），采用动态预处理Pipeline：

👉 这一步的优化让OCR在扫描件上的准确率直接提升了21个百分点。

切分模块

在之前的那篇文章中提到了naive_merge（基于Token数的简单装箱）。但这种方法在保险条款面前则会失效。比如：

条款原文：“本保险承保…但以下情况除外：(1)xx…(2)yyy…”
固定切分的问题：切分点恰好落在“但以下情况除外”之前。
Chunk A：“本保险承保…”
Chunk B：“(1)xx…(2)yyy…”
后果：用户问“xx保不保？”系统检索到 Chunk B，但缺少了前文的“除外”限定，导致 LLM 回答“保”。🫠

为了解决这个问题，需要全面重构切分策略，从「固定长度切分」进化到了「语义感知切分+智能 Overlap」。👇

1、基于文档树的递归切分

👉 保留文档的章节感。

切分逻辑不再是线性的，而是树状的：优先按章节切 -> 章节过长按小节切 -> 还长按段落切

2、智能Overlap

👉 传统的Overlap（如固定 100 tokens）可能会把句子拦腰截断。

因此可以设计基于句子边界的Overlap。它会回溯前一个Chunk，找到最近的句号、问号或感叹号，确保Overlap的部分是一句完整的话。

此外，如果Chunk里只存了文本和向量，却缺少元数据，那么这个chunk就失去了灵魂。🙂‍↔️ 比如无法实现以下功能：

答案溯源
用户问：“核辐射在保障范围内吗？”
系统回答：“根据第3条保险责任 > 3.2 责任免除 > (2)，核辐射不在保障范围。”
检索加权
关键条款（责任、免责、费率）的权重×1.5
识别方法：关键词匹配 + 章节标题判断
上下文扩展
如果检索到的chunk语义不完整，自动拉取前后chunk。
例如：检索到"但以下除外：“，自动拉取前一个chunk的"承保范围”。

👉 所以不能仅仅是存储文本，需要将Chunk定义为一个富信息的对象。可以扩展为四个维度：基础信息、结构信息、类型信息和位置信息。

检索模块

到了检索阶段，发现单一的向量检索在金融领域有致命弱点：对低频专业词汇不敏感。比如：

用户问：“犹豫期退保扣费吗？”
向量模型可能会召回「退保流程」相关的文档，因为它觉得语义很近，但却漏掉了包含「犹豫期」这个精确关键词的条款。

因此需要构建混合检索架构，并引入了动态权重。👇

1、架构升级：向量+BM25

向量检索：使用 bge-large-zh-v1.5 ，处理语义查询（如“孩子摔伤怎么赔”）。
关键词检索：使用BM25，处理精确查询。

2、核心算法：基于意图识别的动态权重

这是检索系统的核心部分，不能对所有的用户问题都使用固定的0.5 * Vector + 0.5 * BM25。需要先判断用户的意图：是查定义（精确）还是问咨询（语义）呢？

3、结果融合：RRF (倒数排名融合)

如果使用加权求和，需要对分数做归一化（Vector是0-1，BM25可能是 0-50），这样很难调平。但如果使用RRF，它不看分数，只看排名，会更加鲁棒：

4、Cross-Encoder精排

为什么还要进行一次精排呢？😯

👉 经过混合检索召回的Top-10文档，虽然相关，但排序可能不准。

因此额外引入 bge-reranker-large 模型进行精排。但精排速度慢，一般只精排Top-10，而不是Top-50：

向量检索（Bi-Encoder）是「用户query」和「知识库文档」独立编码；
而 Cross-Encoder 是将query和文档拼接在一起输入 BERT，能捕捉更细微的交互语义。

至此，检索链路的使命完成～

大模型完全指南：从零到高薪就业，月薪30K+的AI岗必学收藏！_为什么转行大模型行业？一篇文章让你搞明白

大模型RAG系统构建：PDF文档解析、切分与检索的完整代码教程

开篇

1、解析阶段：不仅仅是提取文字

2、切分阶段：元数据的诞生之地

3、向量化阶段：文本转数学

4、存储与索引：双库联动

解析模块

1、攻克表格解析

2、扫描件的去噪与去水印

切分模块

1、基于文档树的递归切分

2、智能Overlap

检索模块

1、架构升级：向量+BM25

2、核心算法：基于意图识别的动态权重

3、结果融合：RRF (倒数排名融合)

如何系统的学习大模型 AI ？

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

02.大模型 AI 学习和面试资料

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

HCIP代码小练-1

强烈安利8个一键生成论文工具，自考学生轻松搞定毕业论文！

浩思动力混动系统赋能吉利雷达金刚PHEV高性能皮卡上市

【图像传输】基于MPSK算法实现图像传输系统附Matlab代码

2026大模型产品经理黄金元年：零基础逆袭年薪80万+7阶段学习路线+免费资源包(必收藏)