news 2026/7/4 0:01:05

什么是 RAG 中的 Rerank?从原理到实战的完整指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
什么是 RAG 中的 Rerank?从原理到实战的完整指南

什么是 RAG 中的 Rerank?从原理到实战的完整指南

Rerank 是 RAG 系统中连接检索与生成的关键桥梁——用更精细的语义分析,把真正相关的文档排到最前面。


引言

在 RAG(检索增强生成)系统中,有一个经常被忽视却至关重要的环节——Rerank(重排序)。简单来说,它就是在向量检索"粗筛"出一批候选文档后,再用一个更精细的模型对这些文档重新打分排序,把最相关的排到前面,喂给 LLM 生成高质量回答。

很多开发者搭建 RAG 系统时,只关注 Embedding 模型和向量数据库,却忽略了检索与生成之间这道"质检"工序。结果往往是:召回率看起来不错,但 LLM 的回答总是跑偏或产生幻觉。引入 Rerank 后,检索准确率通常能提升15%–30%,在生产环境里是非常显著的提升。

指标数值
检索准确率提升15–30%
额外延迟成本50–200ms
精排后保留文档数Top-3

为什么向量检索不够用?

要理解 Rerank 的价值,首先要看清向量检索的局限性。

向量检索基于Bi-Encoder(双编码器)架构:Query 和 Document 分别通过同一个 Embedding 模型编码成向量,然后用余弦相似度计算匹配度。这种"各编各的"的方式,带来了三个核心问题:

  • 语义鸿沟:Query 通常只有几个词,而 Document 可能有几百上千词,两者的语义空间天然不对齐。向量相似度高的文本片段,实际语义相关性可能并不强。
  • 细粒度关系缺失:“不推荐这款手机"和"推荐这款手机”,Bi-Encoder 可能觉得语义相近,但意思截然相反。它无法捕捉否定词、时间限定等细节。
  • 多义词消歧能力弱:"苹果"是水果还是公司?Bi-Encoder 缺乏上下文,难以准确区分。

但 Bi-Encoder 的优势也很明显——。Document 向量可以预计算存储,检索时只需编码一次 Query 再做相似度查找,适合在全量文档库中快速召回候选。

所以工业界的思路很清晰:用 Bi-Encoder 做快速粗筛,再用 Cross-Encoder 做精准重排,两阶段各取所长。


Rerank 的核心原理:Cross-Encoder

Rerank 之所以能做出比向量检索更精准的判断,关键在于它采用了Cross-Encoder(交叉编码器)架构。

Cross-Encoder 把 Query 和 Document 拼接在一起([CLS] Query [SEP] Document),作为一个整体送入 Transformer 做联合编码。每一层注意力机制都让 Query 中的每个词和 Document 中的每个词充分交互,从而捕捉到 Bi-Encoder 根本看不到的细粒度匹配模式。

两阶段检索架构(文字描述):

[Bi-Encoder 粗筛] Query + Doc1/Doc2/.../DocN → Encoder → 向量相似度 → Top-20 候选 ↓ [Cross-Encoder 精排] Query+Doc1, Query+Doc2, ..., Query+DocN → Cross-Encoder → 相关性分数 → Top-3 精排结果 ↓ [喂给 LLM]

两种架构的对比用表格看得更清楚:

维度Bi-Encoder(粗筛)Cross-Encoder(精排)
速度快(毫秒级)较慢(百毫秒级)
精度中等
处理范围全量文档库(百万级)候选集(20–50 条)
计算方式Query 和 Doc 分别编码Query 和 Doc 拼接联合编码
交互方式无交互,各编各的Token 级深度交互
角色召回(Recall)精排(Precision)

关键洞察:Cross-Encoder 的优势在于 Attention——Query 的每个 Token 都能 attend to Document 的每个 Token。这意味着它能识别"这款手机推荐"里的否定词,而 Bi-Encoder 很可能把这句话和"推荐这款手机"打成差不多的相似度。


Rerank 的工作流程

Rerank 在 RAG 流水线中的位置非常明确—

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/29 0:28:27

别再用低代码玩具糊弄人!2026智能体编排“诸神之战”:谁能真正重塑大中型企业AI协同中枢?

2026 年,企业对 AI 的期待已经彻底告别了“能不能对话”、“能不能帮我写篇周报”的浅层尝试阶段,全面挺进核心业务的“无人区”与深水区。当下面面临的最严酷、最残酷的商业拷问是:AI 究竟能不能组织多个智能体协同作战?能不能跨…

作者头像 李华
网站建设 2026/6/29 0:28:25

商用项目部署全流程拆解:从代码审计到生产上线的六个关键节点

一、审计阶段:拿到代码第一件事不是部署,是审① 目录结构扫描先不跑代码,先看目录。一个项目的目录结构能直接反映架构水平。核心判断标准:业务逻辑是否和框架代码分离。如果控制器里嵌着数据库连接、模板里写着业务判断&#xff…

作者头像 李华
网站建设 2026/6/29 0:42:58

Java毕业设计-基于 SpringBoot 框架的智能化社区健康监测系统的设计与实现 基于 SpringBoot 的智慧社区健康信息管理系统的(源码+LW+部署文档+全bao+远程调试+代码讲解等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/29 0:40:21

先进封装半导体厂家推荐哪家:四大权威厂商深度解析!

在后摩尔时代,先进封装已成为突破芯片性能瓶颈、实现高密度异构集成的核心路径。面对 “先进封装半导体厂家推荐哪家” 的行业核心诉求,结合技术实力、产能规模、客户口碑与国产化适配度,本文权威推荐四大标杆企业,诺顶智能凭借设…

作者头像 李华
网站建设 2026/6/29 0:28:31

青智8962A1功率分析仪电机测试方法

一、电机的分类电机是指依据电磁感应定律实现电能转换或传递的一种电磁装置,它的主要作用是把电能转换为机械能,作为用电器或各种机械的动力源。目前电机可以分为两类,一类是需要驱动器驱动的,包括无刷电机、伺服电机、变频&#…

作者头像 李华
网站建设 2026/6/29 0:32:07

【毕业设计】基于 SpringBoot 的数字化人事档案运维系统的设计与实现 基于 SpringBoot 的企业员工信息归档管理系统(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华