【AI内卷】还在为RAG评估头疼？四大神器助你弯道超车，小白也能轻松玩转大模型！-平芜编程栈

本文详解RAG评估四大框架：Self-RAG通过反思Token控制检索和评估；Corrective RAG使用评估器判断文档质量并触发不同动作；RAGAs提供无参考文本的三维度评估；MultiCONIR针对多条件信息检索的评估基准。这些技术帮助开发者精准定位RAG问题，提升大模型回答质量，是AI开发必备技能。

嗨，大家好，近期Move37将通过多篇文章连载方式，详细讲解RAG的发展过程和技术演变，并讲解这个过程中的经典论文。文章的主要内容包括：

RAG的起源
传统RAG的痛点
优化Query
优化检索
使用推理优化
使用评估优化
RAG框架和实践
高级RAG
RAG综述
总结

本篇是系列文章的第四篇，主要介绍通过RAG中和评估相关的经典论文文章。

使用评估优化RAG

6.1 Self RAG

《Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection》作者是华盛顿大学的两位女性学者Akari Asai(https://akariasai.github.io/)和Ellen Wu(http://ellenmellon.github.io/)，文章发表于ICLR 2024。作者提出了Self-RAG的RAG框架，核心思想是训练一个LM，让它不仅能生成文本，还能生成特殊的“反思 Token（Reflection Tokens）”，用于控制检索的行为和判断最后结果的质量。Reflection Tokens共分为四类：

Retrieve：值包括Yes（需要检索）、No（不检索）、Continue（继续检索），用于决定模型是直接生成结果，还是去语料库中检索文档。
IsREL：判断检索到的文档与Query问题是否具有关联性，值包括Relevant(相关), Irrelevant(无关)；
IsSUP：判断检索到的文档能否足够支撑最终答案，值包括Fully supported(完全支持)、 Partially supported(部分支持)、No support(无支持)；
IsUSE：判断最终答案是否准确回答用户提出的问题，值为1-5分。

作者对以上4个参数，生成批判模型和生成模型：

批判模型：首先通过GPT-4蒸馏训练了基于Llama-2-7B小模型，能够准确的生成这类Tokens。
生成模型：使用批判模型对用户查询插入反思Tokens，然后训练主模型同时生成回答内容和反思Tokens，从而在推理时候，主模型能够判断何时开展检索并判断最后生成答案的准确性。

论文《Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection》地址：

https://arxiv.org/abs/2310.11511

6.2 Corrective RAG

《Corrective Retrieval Augmented Generation》作者是中国科技大学闫世奇(http://home.ustc.edu.cn/~yansiki/)和UCLA顾家辰(https://jasonforjoy.github.io/)，文章投稿到ICLR2025。文章主要解决传统RAG系统严重依赖检索器返回文档的问题，即如果检索器返回了无关或错误的文档，模型往往会盲目地采纳这些信息，从而导致严重的幻觉或误导性生成。

作者引入了一个轻量级的评估器来判断检索文档的质量，同时计算一个置信度分数。基于这个分数，系统会触发三种不同的动作：1. 如果评估结果为“正确（Correct）”，则直接使用该文档；2. 如果为“错误（Incorrect）”，系统会丢弃该文档并利用Web Search来寻找新的外部知识；3. 如果为“模糊（Ambiguous）”，系统则会将检索到的文档与网络搜索的结果相结合，以补充上下文。

此外，CRAG 还设计了一种分解-重组”（Decompose-then-Recompose）算法，用于精细化处理检索到的文档。该算法不再将整个文档作为输入，而是有选择地提取关键信息并过滤掉无关内容，从而优化信息的利用率（类似于Least-to-Most文章）。

文章代码地址：https://github.com/HuskyInSalt/CRAG

论文《Corrective Retrieval Augmented Generation》地址：

https://arxiv.org/abs/2401.15884

6.3 RAGAs

《RAGAs: Automated Evaluation of Retrieval Augmented Generation》作者是Ragas 的创始人Shahul Es(https://shahules786.github.io/)，文章发表在EACL 2024。这是一篇关于RAG自动化评估的重要论文。作者提出了RAGAs框架，旨在解决RAG系统评估难、依赖人工标注昂贵的问题。传统RAG效果评估存在的问题：

传统指标失效：传统的评估指标（如准确率、EM匹配）通常需要人工标注的标准答案（Reference/Ground Truth），但这在实际应用中很难获取
维度单一：仅仅评估最终生成的答案是不够的。RAG 的错误可能源于检索模块没找到相关信息，或者生成模块找到了信息但没回答对（产生了幻觉），需要对这两个部分分别进行评估。

作者提出了一个无参考文本（Reference-Free）的评估框架，这意味着不需要提供人工撰写的标准答案，只需要提供(Question, Retrieved Context, Generated Answer)三元组，即可进行评估。RAGAs 利用 LLM（如 GPT-3.5/GPT-4）作为评审（LLM-as-a-Judge），从三个核心维度对RAG进行评估：

Faithfulness (忠实度)：忠实度是指生成的答案中的主张能够在多大程度上从上下文中推导出来。作者使用的方法是将答案先拆成多个句子，对每个句子对比上下文对该句子的支持程度。
Answer Relevance (答案相关性)：用于衡量生成的答案在多大程度上实际回答了该问题。该指标通过评估生成的答案与原始问题的相关程度来进行打分。如果一个答案缺乏完整性或包含了冗余细节，那么该答案与原始问题的相关性就会降低。具体方法是通过LLM，对答案生成若干个问题的向量表示，然后用LLM判断这些生成问题与原始问题之间的向量相似度的平均值。
Context Relevance (上下文相关性)：用于衡量检索到的上下文在多大程度上包含了回答问题所需的信息。理想情况下，检索到的上下文应该仅包含解决该问题所必需的信息。根据这一原则，作者使用LLM提取上下文中对回答问题至关重要的句子，然后对每个句子对回答问题的重要性。

通过RAGAs，不仅能够在用户没有标准问题和答案的情况下，识别RAG的回答准确率，还能够清楚识别准确率的问题是发生在检索器还是LLM生成器上。本论文对应的开源库RAGAs(https://github.com/vibrantlabsai/ragas)已经成为RAG开发生态中非常流行的评估工具。

论文《RAGAs: Automated Evaluation of Retrieval Augmented Generation》地址：

https://arxiv.org/abs/2309.15217

6.4MultiCONIR

论文《MultiConIR: Towards multi-condition Information Retrieval》由上海交通大学、宁波东方理工大学、香港理工大学和美团的研究人员共同发表，主要研究针对现有IR系统主要处理单一意图的缺陷，提出了一个新的评估基准MULTICONIR，用于评估模型和条件之间的关系。

作者通过构建一个跨越5个领域（书籍、电影、人物、医疗病例、法律文档）的测试集，对IR开展三个核心内容的评估：

复杂性评估(Complexity Robustness)：随着查询条件数量从k=1到10的增加，模型性能是否还能保持稳定；
相关性单调性 (Relevance Monotonicity)：模型能否正确排序满足更多条件的文档，即满足n个条件的文档得分应高于满足n-1个条件的文档。
格式不变性 (Format Invariance)：模型在面对结构化指令（如List形式）和自然语言描述（Free-form形式）时，表现是否一致。

作者在 15 个模型（包括稀疏检索、密集检索、重排序模型和 LLM）上进行了测试，主要发现如下：

多条件的困境：几乎所有模型随着查询条件数量的增加，性能都出现显著下降，Rerankers的崩溃最为严重，例如 bge-reranker-v2-m3在单条件查询表现极好，但在多条件查询下性能急剧下滑。
检索器 vs. 重排序：密集检索器表现出比重排序器更强的鲁棒性，GritLM在检索器中表现最稳健。Rerankers虽然在简单任务上精度高，但对长文本和复杂指令极其敏感，容易出现“灾难性遗忘”或注意力分散。
格式敏感性：Rerankers对查询格式（指令式 vs 描述式）极其敏感，Flip Rate（排序翻转率）高达 30% 以上，而密集检索器相对稳定（约 10%）。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～