news 2026/6/3 8:41:12

36|RAG 评测与回归:命中率、覆盖率、引用正确性

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
36|RAG 评测与回归:命中率、覆盖率、引用正确性

到上一篇为止,你的 RAG(检索增强生成)系统已经跑通了。你随机问了几个问题,发现它答得还不错,于是准备满心欢喜地向老板汇报上线。
等一下!

在工程化领域,有一种错觉叫“我感觉它挺好用的”。
如果明天你换了一个更便宜的 Embedding 向量模型,或者调整了 Chunk 的切分大小,你怎么知道系统是变聪明了,还是变笨了?难道再人工去测 100 个问题吗?

企业级应用决不允许“凭感觉”上线。我们必须引入一套自动化的**评测(Evaluation)**机制。本篇作为卷 4(知识与数据)的收官之作,我们将教你如何用科学的指标给 RAG 系统打分。


1. 核心比喻:如何给一场“开卷考试”打分?

我们在第 30 篇说过,RAG 本质上是一场“开卷考试”。
评价一个学生开卷考试考得好不好,不能只看他最后写的答案对不对,而是要分两步看:

  1. 检索阶段(翻书):他有没有翻到正确的那一页?(如果书翻错了,哪怕答案写得再漂亮,也是零分)。
  2. 生成阶段(抄答案):他有没有把书上的内容抄全?有没有自己瞎编?

基于此,业界总结出了 RAG 评测的“黄金三大指标”


2. 黄金三大指标解析

指标一:命中率(Hit Rate / Context Precision)

  • 测什么:系统能不能把正确的资料(Chunk)捞出来?
  • 通俗解释:用户问“年假几天”,系统捞出来的 5 个片段里,只要有 1 个片段包含了“年假”的具体规定,就算“命中”了。
  • 重要性:⭐⭐⭐⭐⭐。这是 RAG 的地基。如果命中率低,说明你的文本切分、向量库、重排算法做得很烂,后续的大模型再强大也救不回来。

指标二:引用正确性 / 忠实度(Faithfulness)

  • 测什么:大模型最后生成的回答,是不是 100% 来源于检索到的资料?
  • 通俗解释:如果检索到的资料里写着“年假 5 天”,大模型却回答“年假 5 天,病假 3 天”(病假是它用自带知识瞎编的),这就叫不忠实
  • 重要性:⭐⭐⭐⭐⭐。这是企业安全的底线!忠实度一旦下降,意味着幻觉飙升,用户会被错误信息误导。

指标三:覆盖率 / 答案相关性(Answer Relevance)

  • 测什么:回答有没有完全解决用户的问题?
  • 通俗解释:用户问:“张三和李四的绩效分别是多少?”如果资料里都有,但大模型只回答了“张三的绩效是 A”,漏掉了李四,这叫覆盖率不足;如果大模型不仅回答了绩效,还顺便背诵了一段公司的发展历史,这叫废话太多,相关性低
  • 重要性:⭐⭐⭐⭐。它衡量的是用户体验(UX)。

3. 如何做自动化评测与“回归测试”?

你不可能每天雇 10 个人去测这三个指标。工业界的做法是:用大模型来当裁判(LLM-as-a-Judge)

第一步:建立“金标集(Golden Dataset)”

你需要人工整理 50-100 个极其典型的问答对,作为考试的“标准答案”。
格式如下:

  • 问题:出差一天的餐补是多少?
  • 标准答案:一线城市 200 元,二线城市 150 元。
  • 出处依据:《2024财务报销制度》第 3 章。

第二步:自动化打分

每次修改了系统代码(比如换了模型、改了 Prompt),就用脚本跑一遍这 50 个问题。

  • 让“裁判大模型(通常用最聪明的 GPT-4 或 Claude 3.5 Opus)”对比系统生成的答案和“标准答案”。
  • 裁判会严格按照上面讲的三个指标,分别打出 0-1 的分数。

第三步:回归测试(Regression Testing)

如果昨天系统的命中率是 85%,今天你改了一行代码,命中率掉到了 70%,说明这次改动引发了退化(Regression),绝对不能上线!必须回滚代码。
这就把玄学变成了科学。


4. 本篇产出:RAG 评测表与通过门槛

为了让你的项目有章可循,这里提供一份标准的 RAG 评测指标基线。在内部测试时,请对照这张表:

评测维度关注阶段达标门槛 (满分 1.0)优秀标准如果不达标,该怎么优化?
命中率 (Hit Rate)检索阶段> 0.85> 0.951. 增加多路召回(关键词+向量);
2. 优化 Chunk 的切分策略;
3. 增加重排(Reranker)模型。
引用正确性 (Faithfulness)生成阶段> 0.951.0 (零容忍)1. 在 Prompt 里严厉警告“证据优先”;
2. 要求大模型强制输出引用来源;
3. 降低生成时的温度(Temperature=0)。
答案覆盖率 (Relevance)生成阶段> 0.80> 0.901. 在 Prompt 里要求“分点作答”;
2. 增加检索召回的数量(Top-K),确保资料给够。

提示:目前业界主流的自动化评测框架有RAGASTruLens,如果你的团队有研发能力,可以直接接入这两个开源库,它们内置了上述所有的裁判逻辑。


5. 卷 4 结语与复盘

恭喜你!走完这 7 篇文章,你已经掌握了卷 4:知识与数据的全部核心。
回顾一下我们搭建的这套外脑系统:

  1. 决策:我们知道什么时候该用 RAG,什么时候该用微调。
  2. 清洗:我们把各种脏数据洗成了干净的纯文本。
  3. 切分:我们把长文本切碎,并打上了关键的元数据标签。
  4. 检索:我们用多路召回和重排模型,精准捞出参考资料。
  5. 生成与计算:我们用证据链压制幻觉,甚至用结构化 Schema 处理报表。
  6. 评测:我们用科学的指标为系统打分,告别了玄学。

下一步去哪儿?
现在,我们的 AI 已经是一个“精通公司业务知识的百事通”了。
但它依然很被动——它只能等你提问,然后给你答案。如果你想对它说:“帮我去查一下张三的报销单,如果没问题,自动去财务系统里帮他点通过”,它就无能为力了。

怎么让 AI 从“只会回答问题的百科全书”,变成“能自己规划、自己行动、甚至自己纠错的智能体”?
接下来的卷 5:Agent 系统,我们将带你跨入 AI 编程最激动人心的领域:规划、执行与自动化!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/3 8:39:12

多模块融合架构宠物社交与线下服务Java后端代码实现

在宠物服务数字化转型的背景下,单一功能的宠物业务系统已经无法满足复合型场景需求。主流宠物服务平台需要同时承载用户社交互动、线上商品交易、线下洗护预约、宠物托运服务等多项业务,不同业务场景相互独立又数据互通。为解决传统单体架构代码耦合度高…

作者头像 李华
网站建设 2026/6/3 8:39:11

计算生物学如何破解HIV疫苗研发难题:从进化预测到精准设计

1. 项目概述:当计算生物学遇上HIV疫苗研发在生物医学研究领域,人类免疫缺陷病毒(HIV)的疫苗研发堪称一座难以逾越的高峰。自病毒被发现以来,近三十年过去了,其极高的突变率让无数传统疫苗策略折戟沉沙。这背…

作者头像 李华
网站建设 2026/6/3 8:37:04

手机上跑AI编程,我踩了9个坑才躺平

目标很简单:手机SSH到家里Linux机器,跑Kimi CLI和Claude Code,随时随地让AI写代码。坑1:Kimi CLI在Termux装不上。官方没给Android ARM64的包,套proot又依赖爆炸,这条路不通。坑2:Termux黑得看不…

作者头像 李华