news 2026/3/28 2:09:51

大模型RAG系统构建:PDF文档解析、切分与检索的完整代码教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型RAG系统构建:PDF文档解析、切分与检索的完整代码教程

文章详细介绍了金融领域RAG系统的技术实现,从PDF文档到向量索引的完整流程:解析阶段将PDF转为结构化对象树保留文档结构;切分阶段基于语义边界生成带元数据的文本块;向量化阶段将文本转为向量表示;存储采用双库联动机制;检索模块实现向量与BM25关键词的混合检索架构,并通过Cross-Encoder精排。强调代码优化需围绕具体业务场景需求,如金融领域对专业术语的精准召回。


开篇

在之前的[一个金融研报RAG应用:「离线解析」和「在线问答」双链路详解]文章中,是从RAG系统的上帝视角,梳理了数据从入库到检索的流动逻辑。但当真的有一堆文档需要作为知识库给模型的时候,好像还是无从下手。😶

这篇文章是接着之前的金融研报项目,深入代码层面,梳理了从保险PDF文档到向量检索的代码逻辑。一共会分为四个部分,先从数据的角度梳理整个流程,再分别展开解析、切分、检索这三个模块~

(后面三章涉及到的代码会比较多,如果不太看得懂代码的话,可以看一看代码注释理解一下逻辑~)

从「静态文档」到「向量索引」

一个PDF文档「入库」的过程可以拆解为以下四个状态流转:

PARSED(已解析)-> CHUNKED(已切分)-> EMBEDDED(已向量化)-> INDEXED(已索引)

1、解析阶段:不仅仅是提取文字

如果只是简单的提取文本(text = pdf.read()),就会丢失掉最重要的**结构信息。**标题、正文、页眉、页脚、表格如果全部混成一团字符串,后面的切分就会一团糟。🤯

因此在工业级RAG中,解析阶段的输出不是一段文本,而是一个结构化的文档对象树:

  • 层级结构:谁是父章节,谁是子章节。
  • 样式信息:字号、加粗、缩进(这些是判断标题级别的重要依据)。
  • 版面信息:表格的行列关系、图片的上下文位置。

👉 在这个阶段,文档仅仅只是被「看懂」了。

2、切分阶段:元数据的诞生之地

拿着上一步得到的结构化对象就可以开始切分了。

这个阶段的核心任务有两个:

  1. 确定边界:利用解析阶段得到的章节、段落信息,尽量让切分点落在自然的语义边界上(比如句号、段落结束符),而不是生硬地切断一句话。
  2. 生成元数据(Metadata):不是切完就扔进数据库,而是在切分的同时,给每个Chunk办一张身份证:🪪
  • chunk_id:它的唯一标识。
  • section_path:它属于《保险条款》>第二章>责任免除。
  • page_num:它在第 15 页。
  • prev/next_id:它的前文是Chunk A,后文是Chunk B。

👉 此时得到的是一批「携带丰富身份信息的文本块」。

3、向量化阶段:文本转数学

在这个阶段,系统会遍历上一步生成的所有Chunk,提取其中的content字段,调用 Embedding 模型(如bge-large-zh),将其转化为一个高维向量。

👉 这里只对文本做向量化,元数据通常不需要向量化,而是直接存储用于过滤。

4、存储与索引:双库联动

存完了是不是就能检索了呢?

还不可以~为了兼顾「搜得准」和「看得懂」,通常会把数据存两份(逻辑上是这样,具体按情况而定~):

  1. 向量索引:存放chunk_id+vector

    👉 用来算余弦相似度,快速找到Top-K的chunk_id

  2. 文档存储:存放chunk_id+text+metadata

    👉 用来存原始内容。当向量索引找到ID后,去这里把人能看懂的字和元数据也捞出来。

再回顾一下这条链路~

  1. PDF-> 解析成结构化对象
  2. 结构化对象-> 切分成带元数据的Chunk
  3. Chunk-> 向量化成Vector
  4. Vector-> 建索引,发布上线。
  5. 在线检索-> Query 变向量,去索引里找 Chunk,最后由 LLM 生成答案。

搞清楚了整体的流程,接下来深入到每一个环节的代码实现,就会发现:所有复杂的代码,无非是在为这张流程图里的某一个箭头做优化。👇

解析模块

解析的质量直接决定了RAG的上限。

虽然可以直接使用通用的PyPDF2,但结果可能会不尽人意;也可以使用Deepdoc (LayoutLMv3 + PaddleOCR),但面对复杂场景仍需定制化改造。👇

1、攻克表格解析

保险文档中最难处理的是表格。文档中存在三类表格,单一的解决方案无法通吃。这个项目中设计了一套分流策略:

  • 有边框表格:Deepdoc 原生处理(准确率 95%)。
  • 无边框/半结构化表格:这是重灾区,Deepdoc识别率仅62%。

针对无边框表格,引入MinerU 2.5,但因为它推理慢,不能全部都用这个方法,需要在解析前置加一个分类器,只对由于「对齐」但「无框」的区域调用MinerU:

2、扫描件的去噪与去水印

金融存量文档中有30%是扫描件,且常常会带有「仅供内部使用」的红色印章或水印。这些干扰会导致 OCR 将文字识别为乱码。

这个项目的做法是摒弃传统的全局高斯滤波(会模糊文字),采用动态预处理Pipeline:

👉 这一步的优化让OCR在扫描件上的准确率直接提升了21个百分点。

切分模块

在之前的那篇文章中提到了naive_merge(基于Token数的简单装箱)。但这种方法在保险条款面前则会失效。比如:

条款原文:“本保险承保…但以下情况除外:(1)xx…(2)yyy…”

固定切分的问题:切分点恰好落在“但以下情况除外”之前。

Chunk A:“本保险承保…”

Chunk B:“(1)xx…(2)yyy…”

后果:用户问“xx保不保?”系统检索到 Chunk B,但缺少了前文的“除外”限定,导致 LLM 回答“保”。🫠

为了解决这个问题,需要全面重构切分策略,从「固定长度切分」进化到了「语义感知切分+智能 Overlap」。👇

1、基于文档树的递归切分

👉 保留文档的章节感。

切分逻辑不再是线性的,而是树状的:优先按章节切 -> 章节过长按小节切 -> 还长按段落切

2、智能Overlap

👉 传统的Overlap(如固定 100 tokens)可能会把句子拦腰截断。

因此可以设计基于句子边界的Overlap。它会回溯前一个Chunk,找到最近的句号、问号或感叹号,确保Overlap的部分是一句完整的话。

此外,如果Chunk里只存了文本和向量,却缺少元数据,那么这个chunk就失去了灵魂。🙂‍↔️ 比如无法实现以下功能:

  1. 答案溯源

    用户问:“核辐射在保障范围内吗?”

    系统回答:“根据第3条 保险责任 > 3.2 责任免除 > (2),核辐射不在保障范围。”

  2. 检索加权

    关键条款(责任、免责、费率)的权重×1.5

    识别方法:关键词匹配 + 章节标题判断

  3. 上下文扩展

    如果检索到的chunk语义不完整,自动拉取前后chunk。

    例如:检索到"但以下除外:“,自动拉取前一个chunk的"承保范围”。

👉 所以不能仅仅是存储文本,需要将Chunk定义为一个富信息的对象。可以扩展为四个维度:基础信息、结构信息、类型信息和位置信息。

检索模块

到了检索阶段,发现单一的向量检索在金融领域有致命弱点:对低频专业词汇不敏感。比如:

用户问:“犹豫期退保扣费吗?”

向量模型可能会召回「退保流程」相关的文档,因为它觉得语义很近,但却漏掉了包含「犹豫期」这个精确关键词的条款。

因此需要构建混合检索架构,并引入了动态权重。👇

1、架构升级:向量+BM25

  • 向量检索:使用 bge-large-zh-v1.5 ,处理语义查询(如“孩子摔伤怎么赔”)。
  • 关键词检索:使用BM25,处理精确查询。

2、核心算法:基于意图识别的动态权重

这是检索系统的核心部分,不能对所有的用户问题都使用固定的0.5 * Vector + 0.5 * BM25。需要先判断用户的意图:是查定义(精确)还是问咨询(语义)呢?

3、结果融合:RRF (倒数排名融合)

如果使用加权求和,需要对分数做归一化(Vector是0-1,BM25可能是 0-50),这样很难调平。但如果使用RRF,它不看分数,只看排名,会更加鲁棒:

4、Cross-Encoder精排

为什么还要进行一次精排呢?😯

👉 经过混合检索召回的Top-10文档,虽然相关,但排序可能不准。

因此额外引入 bge-reranker-large 模型进行精排。但精排速度慢,一般只精排Top-10,而不是Top-50:

  • 向量检索(Bi-Encoder)是「用户query」和「知识库文档」独立编码;
  • 而 Cross-Encoder 是将query和文档拼接在一起输入 BERT,能捕捉更细微的交互语义。

至此,检索链路的使命完成~

如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/26 14:34:04

大模型完全指南:从零到高薪就业,月薪30K+的AI岗必学收藏!_为什么转行大模型行业?一篇文章让你搞明白

文章分析了大模型行业的爆发式发展,指出传统技术岗位面临萎缩,而大模型领域呈现高薪、稀缺、前沿的职业优势。提供了系统化转行路径:基础知识构建(1-3个月)、核心技能进阶(3-6个月)、行业级项目实战(6-12个月)。同时探讨了技术门槛突破、竞争…

作者头像 李华
网站建设 2026/3/25 7:25:59

HCIP代码小练-1

进行网段划分:1.区分还回网段(环回接口:路由器的虚拟接口,一般用于模拟测试,不需要设备支撑)及骨干链路的网段划分。2.将192.168.1.0 24 划分成两个子网并进行环回网段的分配。3.因为骨干链路只用两个接口&…

作者头像 李华
网站建设 2026/3/14 7:00:08

强烈安利8个一键生成论文工具,自考学生轻松搞定毕业论文!

强烈安利8个一键生成论文工具,自考学生轻松搞定毕业论文! AI 工具如何改变论文写作的未来 随着人工智能技术的不断进步,越来越多的自考学生开始借助 AI 工具来完成毕业论文的撰写。在当前的学术环境中,AIGC(人工智能生…

作者头像 李华
网站建设 2026/3/23 11:50:21

浩思动力混动系统赋能吉利雷达金刚PHEV高性能皮卡上市

近日,浩思动力超级电混系统正式搭载于吉利雷达金刚PHEV山地版车型。该车型为混动皮卡,以“山地高原动力之王”为定位,面向西南、西北等高原及山区复杂地形,覆盖户外运输工程作业、越野探险等应用场景,充分展现了浩思动力在高性能混合动力领域的系统化技术实力。作为新一代动力总…

作者头像 李华
网站建设 2026/3/27 19:14:02

【图像传输】基于MPSK算法实现图像传输系统附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 &#x1…

作者头像 李华