到上一篇为止,你的 RAG(检索增强生成)系统已经跑通了。你随机问了几个问题,发现它答得还不错,于是准备满心欢喜地向老板汇报上线。
等一下!
在工程化领域,有一种错觉叫“我感觉它挺好用的”。
如果明天你换了一个更便宜的 Embedding 向量模型,或者调整了 Chunk 的切分大小,你怎么知道系统是变聪明了,还是变笨了?难道再人工去测 100 个问题吗?
企业级应用决不允许“凭感觉”上线。我们必须引入一套自动化的**评测(Evaluation)**机制。本篇作为卷 4(知识与数据)的收官之作,我们将教你如何用科学的指标给 RAG 系统打分。
1. 核心比喻:如何给一场“开卷考试”打分?
我们在第 30 篇说过,RAG 本质上是一场“开卷考试”。
评价一个学生开卷考试考得好不好,不能只看他最后写的答案对不对,而是要分两步看:
- 检索阶段(翻书):他有没有翻到正确的那一页?(如果书翻错了,哪怕答案写得再漂亮,也是零分)。
- 生成阶段(抄答案):他有没有把书上的内容抄全?有没有自己瞎编?
基于此,业界总结出了 RAG 评测的“黄金三大指标”。
2. 黄金三大指标解析
指标一:命中率(Hit Rate / Context Precision)
- 测什么:系统能不能把正确的资料(Chunk)捞出来?
- 通俗解释:用户问“年假几天”,系统捞出来的 5 个片段里,只要有 1 个片段包含了“年假”的具体规定,就算“命中”了。
- 重要性:⭐⭐⭐⭐⭐。这是 RAG 的地基。如果命中率低,说明你的文本切分、向量库、重排算法做得很烂,后续的大模型再强大也救不回来。
指标二:引用正确性 / 忠实度(Faithfulness)
- 测什么:大模型最后生成的回答,是不是 100% 来源于检索到的资料?
- 通俗解释:如果检索到的资料里写着“年假 5 天”,大模型却回答“年假 5 天,病假 3 天”(病假是它用自带知识瞎编的),这就叫不忠实。
- 重要性:⭐⭐⭐⭐⭐。这是企业安全的底线!忠实度一旦下降,意味着幻觉飙升,用户会被错误信息误导。
指标三:覆盖率 / 答案相关性(Answer Relevance)
- 测什么:回答有没有完全解决用户的问题?
- 通俗解释:用户问:“张三和李四的绩效分别是多少?”如果资料里都有,但大模型只回答了“张三的绩效是 A”,漏掉了李四,这叫覆盖率不足;如果大模型不仅回答了绩效,还顺便背诵了一段公司的发展历史,这叫废话太多,相关性低。
- 重要性:⭐⭐⭐⭐。它衡量的是用户体验(UX)。
3. 如何做自动化评测与“回归测试”?
你不可能每天雇 10 个人去测这三个指标。工业界的做法是:用大模型来当裁判(LLM-as-a-Judge)。
第一步:建立“金标集(Golden Dataset)”
你需要人工整理 50-100 个极其典型的问答对,作为考试的“标准答案”。
格式如下:
- 问题:出差一天的餐补是多少?
- 标准答案:一线城市 200 元,二线城市 150 元。
- 出处依据:《2024财务报销制度》第 3 章。
第二步:自动化打分
每次修改了系统代码(比如换了模型、改了 Prompt),就用脚本跑一遍这 50 个问题。
- 让“裁判大模型(通常用最聪明的 GPT-4 或 Claude 3.5 Opus)”对比系统生成的答案和“标准答案”。
- 裁判会严格按照上面讲的三个指标,分别打出 0-1 的分数。
第三步:回归测试(Regression Testing)
如果昨天系统的命中率是 85%,今天你改了一行代码,命中率掉到了 70%,说明这次改动引发了退化(Regression),绝对不能上线!必须回滚代码。
这就把玄学变成了科学。
4. 本篇产出:RAG 评测表与通过门槛
为了让你的项目有章可循,这里提供一份标准的 RAG 评测指标基线。在内部测试时,请对照这张表:
| 评测维度 | 关注阶段 | 达标门槛 (满分 1.0) | 优秀标准 | 如果不达标,该怎么优化? |
|---|---|---|---|---|
| 命中率 (Hit Rate) | 检索阶段 | > 0.85 | > 0.95 | 1. 增加多路召回(关键词+向量); 2. 优化 Chunk 的切分策略; 3. 增加重排(Reranker)模型。 |
| 引用正确性 (Faithfulness) | 生成阶段 | > 0.95 | 1.0 (零容忍) | 1. 在 Prompt 里严厉警告“证据优先”; 2. 要求大模型强制输出引用来源; 3. 降低生成时的温度(Temperature=0)。 |
| 答案覆盖率 (Relevance) | 生成阶段 | > 0.80 | > 0.90 | 1. 在 Prompt 里要求“分点作答”; 2. 增加检索召回的数量(Top-K),确保资料给够。 |
提示:目前业界主流的自动化评测框架有RAGAS和TruLens,如果你的团队有研发能力,可以直接接入这两个开源库,它们内置了上述所有的裁判逻辑。
5. 卷 4 结语与复盘
恭喜你!走完这 7 篇文章,你已经掌握了卷 4:知识与数据的全部核心。
回顾一下我们搭建的这套外脑系统:
- 决策:我们知道什么时候该用 RAG,什么时候该用微调。
- 清洗:我们把各种脏数据洗成了干净的纯文本。
- 切分:我们把长文本切碎,并打上了关键的元数据标签。
- 检索:我们用多路召回和重排模型,精准捞出参考资料。
- 生成与计算:我们用证据链压制幻觉,甚至用结构化 Schema 处理报表。
- 评测:我们用科学的指标为系统打分,告别了玄学。
下一步去哪儿?
现在,我们的 AI 已经是一个“精通公司业务知识的百事通”了。
但它依然很被动——它只能等你提问,然后给你答案。如果你想对它说:“帮我去查一下张三的报销单,如果没问题,自动去财务系统里帮他点通过”,它就无能为力了。
怎么让 AI 从“只会回答问题的百科全书”,变成“能自己规划、自己行动、甚至自己纠错的智能体”?
接下来的卷 5:Agent 系统,我们将带你跨入 AI 编程最激动人心的领域:规划、执行与自动化!