【收藏必看】一文搞懂RAG：检索增强生成技术全解析，小白程序员入门指南-平芜编程栈

本文详细介绍了RAG（检索增强生成）技术，包括其基本概念、流程（构建向量存储和检索生成）、文档分块策略、相似度计算方法及优化方案。文章探讨了RAG的进阶优化技术，如重排序（Re-rank）和GraphRAG，并提供了评估RAG系统效果的方法。同时分析了RAG的局限性及其解决方案，为构建高效、准确的检索增强生成系统提供了全面的技术指南。

RAG 介绍

RAG(Retrieval Augmented Generation) 是一种无需微调即可扩充模型知识的常用方法。借助 RAG，LLM可以从数据库中检索上下文文档，以提高答案的准确性。

因为 LLM 大模型通过海量数据进行训练，数据是有时效性的。如果询问最新的文档或者一些专业领域的知识，LLM 是无法回答的。所以检索增强生成(RAG) 通过将你的数据添加到 LLM 已有的数据中来解决此问题。

RAG 解决了纯生成模型的局限性（如幻觉、知识过时等），通过动态检索外部知识增强生成结果的可信度和时效性。

RAG 流程

典型的 RAG 流程分为两个部分：

构建向量存储：创建向量存储是构建检索增强生成 (RAG) 流程的第一步。文档会被加载（Load）、拆分（Split）、Embedding 存储到向量数据库中。

加载文档 Load
加载各种非结构化的数据，例如：TXT 文本、PDF、JSON，HTML、Markdown 等。Langchain 封装了各种格式的DocumentLoaders文档加载器。
切分文本 Split
将文本切分成更小的文本块（Chunk）。
转化向量 Embedding
使用 Embedding 模型将文本转换为向量（浮点数数组）表示
向量数据库 VectorStore ：存储 Embedding 向量，能够基于向量相似度高效地检索与查询“最相似”的数据。

2. 检索生成：根据用户输入用向量数据库进行相似性搜索，让后把用户的question和搜索到的context作为上下文喂给 LLM 大模型，LLM 分析推理回答用户的问题。

我使用LangGraph构建了基本的 RAG 流程：

调用 Retrieval Tool 搜索相关文档，然后GradeDocument对文档进行评分：对从向量数据库检索到的文档进行评分：如果检索到的文档与用户输入的内容相关，则 GenerateAnswer 生成答案返回，如果不相关，则 Rewrite 重新生成 query 进行检索。

代码已上传 Github：

https://github.com/Liu-Shihao/ai-agent-demo/tree/main/src/rag_agent

进阶 - RAG 优化

文档 Chunking

大模型对话的 token 数量是有限制的，文档切分是为了将文档切分为小的文本块，适合检索并且节省 token。切分的文本块长度也会影响 LLM 回答的质量。

常见的切分文档的方法：

固定长度切分（重叠分块边界）
：按照字符或者 Token 数（如 512 个 token）切分。重叠分块以避免边界信息丢失。这种方式最简单，但是有可能会截断语义。
按照句子边界
（标点符号）分块，例如使用 NLP 框架SpaCy, 但是长段落可能语义断裂。
自定义规则分割
：用正则表达式或者 DOM 解析器（如 BeautifulSoup）按照逻辑结构（标题，段落）分块。适合结构化文档，但是需要手动设计分割规则。
基于语义的分块
：用 Transformer 模型分析语义关系分块。

优化原则：

chunk 块大小需要匹配 embedding 模型和 llm 大模型的 tokne 限制。
关键信息（实体，关系）尽量保留在同一块中。

相似性算法

在 RAG（检索增强生成）和其他信息检索任务中，相似性算法用于衡量文本、向量或实体之间的关联程度。

欧氏距离（L2）：欧几里得距离测量连接两点的线段的长度（计算向量间的直线距离）。它是最常用的距离度量，当数据连续时非常有用。值越小，相似度越高。
余弦相似度（COSINE）：余弦相似度使用两组向量之间夹角的余弦来衡量它们的相似程度。余弦相似度始终在区间[-1, 1]内。余弦值越大，两个向量之间的夹角越小，表明这两个向量彼此越相似。适合文本 embedding 比较。
BM25(（Best Matching 25）)：BM25 基于词频（TF）和逆文档频率（IDF)。根据词频、倒排文档频率、文档规范化对相关性进行评分。用于评估文档与查询的相关性。广泛应用于搜索引擎和问答系统。如 Elasticsearch 默认使用 BM25 排序。

词频（TF）
：衡量查询词在文档中的出现频率，但通过参数k1控制词频的饱和效应，避免高频词过度影响得分。
逆文档频率（IDF）
：惩罚常见词（如“的”“是”），提升罕见词的权重。反映某个术语在整个语料库中的重要性。出现在较少文档中的术语的 IDF 值较高，表明其对相关性的贡献较大。
文档长度归一化
：较长的文档由于包含更多术语，往往得分更高。BM25 通过归一化文档长度来缓解这种偏差。通过参数调整长文档的得分，避免因文档长度导致的词频偏差。

Jaccard相似度（Jaccard Index）: 比较集合的交集与并集比例。适用场景：关键词集合、推荐系统（如用户兴趣匹配）。范围[0,1]，值越小，相似度越高。

RAG 中的典型应用

初步检索：余弦相似度（快速筛选候选文档）。
重排序：交叉编码器（精细排序 Top-K 结果）。
去重：Jaccard 相似度（合并重复片段）。

通过灵活组合这些算法，可以优化 RAG 系统的召回率、准确率和响应速度。

余弦相似度（COSINE）的缺点

忽视向量长度信息：余弦相似度仅计算向量方向的夹角，忽略向量的长度（模）。这意味着

高频词干扰：TF-IDF或词频高的长文本可能主导方向，但实际语义不相关。会放大无关词的影响。
归一化依赖：未归一化的向量可能导致相似度计算偏差。长文本包含更多词汇，其向量各维度值累加后长度（模）显著大于短文本。

语义相似度 ≠ 相关性：余弦相似度基于表面语义匹配。
表面匹配，但相关文档不一定语义相似：如果两个文本共享许多相同的关键词（如“猫”“狗”“宠物”），即使逻辑不同，余弦相似度仍可能很高。例如：
文档1：“猫和狗是常见的宠物。”（正向描述）
文档2：“猫和狗不适合作为宠物。”（负向观点）
余弦相似度高，但语义相反。
词序颠倒，但余弦相似度相同。示例：
句子A：“医生治疗病人。”
句子B：“病人治疗医生。”

解决方案：

向量归一化：强制所有向量的单位长度（如L2归一化）。
结合其他指标：如点积相似度（考虑长度）或BM25（词频加权）。
重排序（Re-rank）：用交叉编码器（如MiniLM）精细化排序。
混合检索：结合关键词匹配（BM25）或知识图谱关系。

Rerank 重排序

重排序（Reranking）是对初步检索结果进行优化排序的技术，旨在提升结果的相关性和准确性。

初次检索（如余弦相似度）可能返回语义相关但冗余或低质量片段，重排序可结合更多特征优化顺序。

方法：

交叉编码器（Cross-Encoder）：如 MiniLM-L6-v2，计算查询与每个文档的相关性分数（比嵌入模型更准但更慢）。
学习排序（Learning to Rank）：训练模型综合多特征（如关键词匹配、点击率）排序。
规则调整：去除重复内容、优先新鲜度高的文档。

Graph RAG

使用知识图谱（Knowledge Graph, KG）增强 RAG（检索增强生成）可以显著提升复杂推理、多跳问答和关系挖掘的能力。通过将文档中的实体（Entities）和关系（Relations）提取为知识图谱，在检索阶段不仅返回文本片段，还返回相关的子图结构，从而增强生成模型的上下文理解能力。

与传统 RAG 的区别：

特性	传统 RAG	GraphRAG
检索单元	文本片段（Chunks）	实体+关系子图
推理能力	单跳语义匹配	多跳推理（如 A→B→C）
适用场景	简单问答	复杂关系查询

实现步骤：

实体识别（NER）
使用 SpaCy NLP 模型或者 LLM 大模型进行命名实体提取，从文本中识别提取人名，地名，组织名，地点，日期等实体。
关系抽取
可以利用 LLM 大模型抽取三元组(〈主体 (Subject), 关系 (Predicate), 客体 (Object)〉)。
图谱存储
将节点 Node 和关系 Relations 存储到图数据库中，如 Neo4j。

三元组（Triple）是知识图谱（Knowledge Graph）中的基本数据单元，用于表示实体（Entity）之间的关系（Relation），其结构为：〈主体 (Subject), 关系 (Predicate), 客体 (Object)〉

通过知识图谱的引入，RAG 系统能够从“平面检索”升级为“立体推理”，尤其适合需要深挖实体关系的复杂场景。

RAG Evaluate 评估

对RAG的评估可以从以下两个部分进行：

检索质量

上下文准确率（Context Precision）：是衡量上下文中相关词块比例的指标。准确率是排名为 k 的相关词块数量与排名为 k 的词块总数之比。
上下文召回率（Context Recall）：前K个结果中相关文档的比例。衡量成功检索到的相关文档（或信息片段）数量。更高的召回率意味着遗漏的相关文档更少。

生成质量

答案相关度 Response Relevancy：生成答案与问题的契合度。衡量答案与用户输入的相关性。分数越高，表示与用户输入的匹配度越高；如果生成答案不完整或包含冗余信息，则分数越低。
忠诚度 Faithfulness：衡量的是答案与检索内容的事实一致性。答案是否严格基于检索内容，减少幻觉。

RAG 有哪些缺点？

检索的质量依赖外部数据库：如果知识库不完整，过时，或者噪声多，检索到的内容可能不相关或者错误，导致生成的答案质量下降。
解决方案：定期更新知识库（实时爬取权威数据源）
分块（Chunking）导致上下文碎片化：固定大小的分块可能截断关键信息。答案可能分散在多个 chunk 块中。
解决方案：动态分块（按照语义边界切分，如段落，章节·）
语义相关不等于答案相关：：向量检索（如余弦相似度）可能返回语义相关但无实际答案的文档。（如查询“如何治疗感冒？”，可能检索到“感冒症状描述”而非治疗方案）。
解决方案：引入重排序（Re-rank）模型（如交叉编码器）；混合检索（结合关键词检索，如 BM25）。
生成模型忽视检索内容：生成模型可能忽略检索到的文档，仍依赖自身知识（幻觉）。
解决方案：强化提示工程（如“严格基于以下上下文回答”）。
无法处理多跳推理：传统 RAG 难以回答需要多步推理的问题（如“A 公司的竞争对手的 CEO 是谁？”）。
解决方案：引入知识图谱（GraphRAG）显式建模实体关系。
RAG 流程时间长：检索+生成两阶段流程导致响应时间较长（尤其涉及重排序时）。
解决方案：缓存高频查询结果。

缺点类别	具体问题	解决方案
检索质量	知识库不完整/碎片化	动态更新知识库、语义分块、重排序
生成偏差	忽视检索内容/幻觉	提示工程、模型微调
效率问题	高延迟/高计算成本	缓存、量化、分层检索
知识覆盖	领域盲区/偏见	多源数据融合、去偏处理
复杂推理	多跳推理困难	GraphRAG、迭代检索

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

【收藏必看】一文搞懂RAG：检索增强生成技术全解析，小白程序员入门指南

RAG 介绍

RAG 流程

进阶 - RAG 优化

文档 Chunking

相似性算法

余弦相似度（COSINE）的缺点

Rerank 重排序

Graph RAG

RAG Evaluate 评估

对RAG的评估可以从以下两个部分进行：

检索质量

生成质量

RAG 有哪些缺点？

如何学习大模型 AI ？

① 全套AI大模型应用开发视频教程

② 大模型系统化学习路线

③ 大模型学习书籍&文档

④ AI大模型最新行业报告

⑤ 大模型项目实战&配套源码

⑥ 大模型大厂面试真题

以上资料如何领取？

为什么大家都在学大模型？

这些资料真的有用吗？

以上全套大模型资料如何领取？

Python 一行代码实现计数统计：dict.get() 的巧妙用法

大模型学习路线图：从概念到实践（程序员必备，建议收藏）

基于深度学习的交通标志识别研究与应用

【开题答辩全过程】以基于Java的九价疫苗预约系统为例，包含答辩的问题和答案

HighGoDB 用户密码安全策略

Substance P (1-9) ；RPKPQPFG

RAG 介绍

RAG 流程

进阶 - RAG 优化

文档 Chunking

相似性算法

余弦相似度（COSINE）的缺点

Rerank 重排序

Graph RAG

RAG Evaluate 评估

对RAG的评估可以从以下两个部分进行：

检索质量

生成质量

RAG 有哪些缺点？

如何学习大模型 AI ？

① 全套AI大模型应用开发视频教程

② 大模型系统化学习路线

③ 大模型学习书籍&文档

④ AI大模型最新行业报告

⑤ 大模型项目实战&配套源码

⑥ 大模型大厂面试真题

以上资料如何领取？

为什么大家都在学大模型？

这些资料真的有用吗？

以上全套大模型资料如何领取？

Python 一行代码实现计数统计：dict.get() 的巧妙用法

大模型学习路线图：从概念到实践（程序员必备，建议收藏）

基于深度学习的交通标志识别研究与应用

【开题答辩全过程】以 基于Java的九价疫苗预约系统为例，包含答辩的问题和答案

HighGoDB 用户密码安全策略

Substance P (1-9) ；RPKPQPFG

【开题答辩全过程】以基于Java的九价疫苗预约系统为例，包含答辩的问题和答案