文章详细介绍了RAG系统的可观测性和评估方法,提出检索与生成阶段的多种量化指标,如忠实度、相关性等。通过科学评估,企业可识别系统瓶颈并进行优化,其中忠实度是防范幻觉的关键。文章强调检索质量决定系统上限,并预告后续实战内容,包括自动化评估流水线的构建。
RAG的可观测性:如何定量监测RAG系统
在当前企业级 AI 应用中,RAG系统已成为不可或缺的核心模块。
通过将私有知识库与大语言模型(LLM)深度融合,RAG 不仅显著提升了回答的准确性与专业性,更在抑制模型幻觉、保障输出可信度方面扮演着关键角色。无论是企业知识库、智能客服、法律咨询助手,还是金融合规审查、医疗辅助决策等高风险场景,RAG 都是确保 AI 回答有据可依的第一道防线。
回顾上文,我们讲了RAG系统的基本组成:
然而,一个常被忽视的问题是:你的 RAG 系统表现到底好不好呢?
一、为什么评估 RAG 系统很重要?
很多团队在部署 RAG 后,仅凭Vibe Check来判断系统好坏。这种方式在处理前几个测试案例时或许有效,但一旦面对真实的生产流量,你会发现自己陷入了无数的未知中:
- 用户问的问题是否都被正确理解?
- 检索到的文档是否真正相关?
- 生成的答案是否忠实于原文、没有编造?
- 系统在哪些场景下容易失效?
有效评估和优化基于 LLM 的 RAG 系统,决定了你的系统是一个好看的Demo还是一个高度可用、值得信赖的 AI 产品。系统性地思考,提前布局并建设评估体系,是将 AI 应用真正推向生产环境的必经之路,也是作者一直以来的理念。
我们需要更严谨的方法和指标,才能确保 LLM 应用真正达到最优性能。
即,建立一套系统性的RAG 可观测性体系。通过可量化、可追踪、可归因的指标,持续监控系统运行状态,并驱动迭代优化。
二、 RAG 的评估指标
RAG过程有两个主要环节需要进行评价:检索阶段(Retrieval)与生成阶段(Generation)
生产过程中,如果想评价RAG系统表现,最难的点是什么呢?
没有足够的人工数据集或参考答案。
由于LLM 系统本质上是生成式的,我们往往期待其做出更多创意性的回复。这意味着,对于同一个问题,可能存在无数种正确的表达方式,我们无法通过简单的文本比对来判定对错。
我们可以在开发期间建立有限多的人工数据(黄金数据集)进行测试,但是在实际生产中,面对海量且多变的真实用户查询,没有足够的资源和时间去构建完善的数据集。
所以在这里,各位可以评估一下自己项目的系统:将评估维度拆解为检索与生成两个阶段,并根据企业内是否有足够资源建设标准数据集作为参照,由此衍生出评价的四象限矩阵:
RAG 评价指标四象限矩阵
附带企业中常用的评估维度,各位可以参考酌情使用:
- 检索阶段 (Retrieval)
- 上下文精确度(Context Precision):检索到的内容中,真正有用的信息占比。
- 上下文回忆率(Context Recall):衡量检索到的内容是否完整覆盖了回答问题所需的事实。
- MRR(平均倒数排名):关注第一个相关结果是否排在最前面。
- NDCG(归一化折损累计增益):全面评估整个排序列表的质量。
- 生成阶段 (Generation)
- 忠实度(Faithfulness):检查答案中的声明是否都能在上下文中找到依据。非常灵敏的幻觉监测指标。
- 答案相关性(Answer Relevancy):评估答案是否直接针对用户问题,不包含无关信息。
- 答案正确性(Answer Correctness):将生成答案与标准答案进行语义和事实的双重对比。
三. 什么是断言(Assertion / Statement)?
在具体讲每个评估指标之前,先讲一下,什么是断言。
断言(记作S),是指从模型生成的回答中提取出来的原子事实或独立主张。
为什么要提取断言呢?模型生成的原始回答通常很长,包含多个从句和复杂的逻辑。直接判断一整个段落是否忠实很难。因此,我们利用 LLM 将长句拆解成一个个一句话只说一个事实的短句。举个例子:
- 原始回答:RAG 系统通过结合检索与生成提高了准确性,且适用于高风险场景。
- 拆解后的断言s_1:RAG 系统结合了检索与生成。
- 拆解后的断言 s_2:RAG 系统提高了准确性。
- 拆解后的断言s_3:RAG 系统适用于高风险场景。
这些拆分出来的s_1、s_2、s_3就是断言。它们是可验证的最小单位。
**断言在评估中有什么用呢?**我们以测试忠实度为例:
为了计算忠实度(Faithfulness),系统会进行以下操作:
- 拆分:把回答 a(q)拆成断言集合S,
*S*={*s*_1,s_2,...,*s_n*} - 核对:逐个检查 S里的每个断言s_n.是否能从检索到的上下文 c(q)中找到证据(原文)支持。
- 计数:
- 统计 S 中总共有多少个断言(即 |S| )。
- 统计其中有多少个断言是能被证明正确的(记作 |V| ,即 Verified)。
算分:
忠实度得分被证实的断言数总断言数
通过这种方法,可以精准地捕捉到模型是否夹带私货。
如果一个回答有 10 个断言,其中 8 个在文档里有,2 个是模型原生的,那么它的忠实度就是 0.8。这种量化方式比人工主观判断好或者不好要科学得多。
四、 RAG 系统评估指标:自洽性评估
企业在推进 RAG 落地时面临的核心痛点在于:当缺乏充足的人工标注数据集(Ground Truth)作为基准时,如何科学、客观地量化系统的性能表现?
针对这一问题,我们建议采用自洽性评估(Self-contained)或无需参考答案(Reference-free)的评价指标。这些指标不依赖人工编写的标准答案,而是通过分析系统内部各环节的逻辑一致性来捕捉生成回答的质量。这也是 AI 系统从 Demo 阶段走向生产级过程中,应对测试地狱的最佳实践。
在此,我们首先定义后续章节中使用的缩写:
: 用户输入的查询或问题。
: 检索器检索到的上下文。
: 模型生成的最终答案。
: 从答案中提取的断言(Assertions)集合,。
1) 忠实度(Faithfulness)
顾名思义,忠实度衡量生成的回答 是否忠实于所检索到的上下文 。它通过检查答案中呈现的所有主张或信息,判断其是否都能直接从检索到的上下文中推断出来。
理想情况下,高忠实度得分意味着生成的文本仅使用了检索文档中提供的信息,而没有引入无关或虚构的细节,从而有效避免幻觉。
我们采用多步法来评估忠实度:利用 LLM 将生成的回答拆解为若干独立的陈述,每个陈述代表一个聚焦的断言。这种分解的目的是将冗长复杂的句子简化为更小、易于验证的逻辑单元。
**步骤 1:提取断言(Extract assertions)**给定问题及其生成的回答,LLM 首先提取一组断言集合 ,其中每个断言 都是一个具体的主张。
★
**提示词示例:**给定一个问题和回答,请从回答的每一句话中提取一个或多个断言。 问题:[在此插入问题] 回答:[在此插入生成的回答]
**步骤 2:验证断言(Verify assertions)**对于 中的每个断言 ,LLM 评估其是否可以从上下文 中推断出来。这通过验证函数 来实现,以确定该主张是否与检索上下文中的信息保持一致。
★
**提示词示例:**请结合给定的上下文和以下陈述,判断每个陈述是否得到了上下文中信息的支持。在得出结论(是/否)之前,请先为每个陈述提供简要解释。最后按顺序给出每个陈述的最终结论,请勿偏离指定的格式。 陈述 1:[内容] … 陈述 n:[内容]
步骤 3:计算忠实度得分完成所有断言的评估后,即可计算忠实度得分 。该得分代表 中完全受上下文支持的陈述所占的比例。 若 代表受支持的陈述数量, 为总陈述数,则计算公式为:
高忠实度得分表明答案中的绝大多数或全部主张在上下文中都是可验证的,这意味着答案与检索到的信息高度一致。
2) 回答相关性(Answer Relevance)
该指标衡量生成的回答 是否以有意义且完整的方式直接回应了用户的查询。需要注意的是,该指标关注的是回答的切题程度,而非其事实准确性。
在评估回答相关性时,我们旨在确认响应是否完全覆盖了用户的意图。因此,它会惩罚那些虽然技术上正确,但表述过于宽泛、部分离题或包含冗余信息的回答。
工作原理:
最终的回答相关性(AR)得分为所有余弦相似度的平均值:
**步骤 1:生成代理问题(Proxy Questions)**对于给定的回答 ,我们提示 LLM 生成一系列可能引出该回答的替代问题 ()。
★
**提示词示例:**请为给定的回答反向生成一个对应的问题。 回答:[在此插入生成的回答]
步骤 2:计算相似度得分获得原始问题 和生成的代理问题集 后,利用嵌入模型(Embeddings)计算原始问题 与每个代理问题 之间的余弦相似度 。该相似度反映了代理问题与原始问题在语义上的接近程度。
高 AR 得分表明生成的回答与原始问题高度契合,因为它能匹配多种反映相同意图的问题变体。
3) 上下文相关性(Context Relevance)
该指标衡量检索到的上下文 对回答特定问题 的支撑程度。它旨在识别并惩罚上下文中包含的无关细节,因为这些噪声可能会在生成阶段误导 LLM。
- 评估方法:
步骤 1:提取相关句子给定问题 及其对应的检索上下文 ,要求 LLM 仅识别出回答 所需的关键句子。这些句子构成了 的子集 。
★
提示词示例:请从提供的上下文中提取有助于回答以下问题的相关句子。如果未找到相关内容,或者你认为无法从给定上下文中回答该问题,请返回短语信息不足。在提取句子时,必须保持原文,不得做任何修改。
步骤 2:计算上下文相关性得分提取子集 后,上下文相关性(CR)得分计算为提取的句子数量与原始上下文中总句子数量的比率:
提取的句子数量上下文总句子数量
高 CR 得分表示检索到的上下文中大部分内容都与问题直接相关;低 CR 得分则表明检索模块存在优化空间,返回了过多干扰信息。
提示词驱动的灵活性:以上三种指标均由提示词驱动,这意味着你可以根据业务需求设计自定义提示词,以捕捉对应用尤为重要的相关性、准确性或上下文特征。
五、 RAG 系统评估指标:显式评估方法(需参考答案)
如果你拥有查询的标准答案(Ground Truth),可以使用以下显式方法进行更深度的对齐:
4) 回答正确性(Answer Correctness)
该指标综合考虑两个关键维度:生成答案与标准答案之间的语义相似度,以及事实相似度。
评价模型单元(Critic LLM):设立一个新的LLM单元,通过对比生成答案与标准答案来确定事实层面的正确性。
嵌入模型:计算生成答案与标准答案的余弦相似度,以确定语义层面的接近程度。
事实正确性评估逻辑: 分析回答中的每个陈述并将其归类为:
事实正确性得分计算公式:
- TP(真阳性):同时存在于回答和标准答案中的陈述。
- FP(假阳性):存在于回答中但不在标准答案中的陈述。
- FN(假阴性):存在于标准答案中但在回答中被遗漏的相关陈述。
5) 上下文召回率(Context Recall)
利用评价模型衡量检索到的上下文与标准答案的一致程度。它通过分析标准答案中的每一句话,核实是否都能在检索到的上下文中找到对应的信息支撑。
6) 上下文精确率(Context Precision)
衡量检索到的上下文(Contexts)中,相关项是否被排在了较高的位置。它用于验证检索到的上下文对于得出最终答案的贡献质量,即好钢是否用在了刀刃上。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。
资料包有什么?
①从入门到精通的全套视频教程⑤⑥
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**