本周,我们探讨的主题是:从 RAG 到 MM-RAG:为什么多模态时代,AI 的核心竞争正在转向“上下文操作系统”?
随着模型能力逐渐趋同,真正拉开差距的已不再是参数规模或提示词技巧,而是系统如何理解问题、组织上下文、检索并整合跨模态信息。MM-RAG 正是这一转变的关键载体,它将检索、压缩、融合与生成纳入统一工作流,推动 AI 从“会回答问题”走向“基于真实世界信息做出可靠决策”。
在 AI 技术日新月异的今天,检索增强生成(RAG)已成为解决大模型“幻觉”与知识时效性的标配。然而,当我们进入多模态时代,如何处理图像、视频、音频与文本之间的复杂协同?
在我们内部技术分享会上,主讲人结合 CCF 第二届中国数据大会的前沿见解,为我们揭示了信息检索(IR)如何从简单的符号匹配演进到如今炙手可热的多模态检索增强生成(MM-RAG),并深度解读了由 华中科技大学、复旦大学、中国电信以及美国伊利诺伊大学芝加哥分校(UIC)的研究者们联合发布的一篇重磅综述。该综述不仅系统化地定义了 MM-RAG 的研究疆界,更提出了一个覆盖全模态的分类框架与统一的工作流。本文将为你全面复盘这场关于“智能信息助手”的技术饕餮盛宴。
信息检索的“代际跃迁”:从符号到深度研究
要理解多模态 RAG(MM-RAG),首先要看清信息检索(IR)的演进轨迹。分享会指出,我们正处在从“相关性”向“效用性”转变的关键节点。
信息检索范式演进过程
传统检索阶段:关键词匹配,依赖离散符号索引,痛点是 “词表不匹配”(如 “电脑” 与 “计算机” 无法互通)
神经检索阶段:引入了稠密向量表示(Embedding)。语义变得可以计算,模态间的壁垒(如文本和图像映射到同一空间)开始被打破,模型容量实现了质的飞跃。
RAG 增强阶段:大模型时代,检索目标从 “搜得准”(相关性)转为 “对回答有用”(效用性),为 LLM 提供背景知识。
深度研究阶段:这是当前的最前沿。要求系统具备复杂意图理解、多模态整合与智能体协作,核心是信息压缩(提炼因果)与信息增益(获取模型外新洞察)。
MM-RAG 的宏大版图:基于输入-输出模态的分类框架
这是本次分享的核心亮点之一。由华科、复旦等校联合发布的这篇综述,打破了以往“文字进、文字出”的狭隘 RAG 定义,提出了一个基于输入-输出模态组合的系统性分类框架。
MM-RAG输入-输出模态分类矩阵
该框架通过对输入端(9 种模态组合)与输出端(6 种模态组合)的交叉组合,勾勒出了一个包含 54 种潜在组合的宏大版图。主讲人指出,目前仅有 18 种组合已有研究,显示出该领域巨大的研究潜力。
分享会更着重探讨了以下四种极具代表性的实战场景:
**处理动态媒体(Dynamic Media):**针对带时间属性的非结构化数据,RAG 需对视频 / 连续音频做特征编码、分段检索,支撑模型生成准确的跨模态总结或问答。
**面向软件工程的结构化生成:**代码模态兼具语义性与严格语法结构,优秀 Code RAG 系统常用混合检索:结合关键词稀疏检索与代码结构专用编码器,保障代码片段的逻辑语义、语法结构双高相关性。
**文本+结构化数据生成文本:**这是知识库与表格问答(Table QA)的核心场景。它涉及更复杂的检索、融合的流程,对齐纯文本描述和结构化表格间的逻辑关系。
**文生视频/3D :**涉及高维空间的连续生成,目前仍处于起步挑战阶段。
构建 MM-RAG 的“四步炼金法”
如何从零搭建一个具备上述能力的 MM-RAG 系统?综述总结了一个端到端的统一工作流,我们可以将其拆解为关键的“四步法”。
MM-RAG构建四步法流程图
第一步:预检索(Pre-retrieval)——数据升维与意图对齐
预检索决定了系统的“天花板”,主要包含知识库准备和查询处理。
- 多模态知识库构建:综述提出了四种组织方式:
**单模态嵌入:**各模态分开存,检索后再融合。
**成对存储:**如“图像-描述对”,通过文本搜图片。
**统一嵌入:**利用 CLIP 等模型将所有模态对齐到同一向量空间(目前的主流)。
**图谱构建:**构建知识图谱,刻画图片中的实体与文本概念的深层联系。
知识库组织的四种核心方法
- 查询处理:用户的输入往往是模糊的。系统需要进行查询重写(纠正错别字、补充背景)、查询扩展(生成关键词)或多重查询(从不同维度分解问题),以提高检索的召回率。
查询处理的不同方法
第二步:检索(Retrieval)—— 构建跨模态信息的“精确捕获系统”
在检索阶段,核心挑战是如何在海量数据中平衡精度与效率。综述对于检索阶段,拆解出了其三大核心支柱:检索器(Retriever)、检索策略(Retrieval Strategy)与检索时机(Retrieval Timing)。
1.检索器:多元化的知识触角
检索器的任务是将用户的查询映射到知识库中,并召回最相关的候选集合。根据底层技术的不同,综述将其分为稀疏检索器、密集检索器以及其他检索器:
检索器的类型
**稀疏检索器:**基于传统关键词匹配技术,速度快,但缺乏深层语义理解;
**密集检索器:**主流深度学习方法,通过CLIP、ImageBind等多模态编码器,将跨模态数据映射到统一稠密向量空间(即向量化),实现语义相似度模糊匹配;
**其他检索器:**含知识图谱结构化检索,及针对音频指纹、3D点云等特定模态的专用索引工具。
2.检索策略:权衡精度与广度
核心是高效组织检索行为,关键策略包括:
混合检索:工业界“标准答案”,通过RRF或加权求和融合稀疏检索的精确性与密集检索的泛化性,保障关键词与意图检索的稳定表现;
分层检索:应对数百万帧视频库等大规模多模态库,采用“先粗后精”策略(先文档/视频级初筛,再段落/关键帧级精细检索),平衡效率与精度。
3.检索时机:从“一次性”到“智能化”
决定检索时机与检索内容同等重要,分三类递进机制:
- **单次检索:**简单模式,用户提问一次、系统检索一次并生成结果,适用于简单问答;
- **迭代检索:**根据初步检索信息或中间生成逻辑,循环多次访问知识库,通过修正检索词挖掘深层完整知识链路;
- **自适应检索:**最先进形态,系统可根据问题复杂度或自身置信度,自主决定是否检索、检索次数,仅当自身知识无法回答时按需调用外部引擎,节省计算资源并减少噪声。
第三步:增强(Augmentation)——去粗取精
检索到的 Top-K 结果并不全是黄金,甚至可能包含干扰项,因此需要进行一些后检索处理操作。
1.上下文重排(Context Reranking)引入参数量更大、多模态对齐能力更强的重排模型(Reranker),对检索到的图片、视频片段或文本段落重新评估。
2.上下文选择(Context Selection)上下文选择通过设定自适应阈值或使用小型分类器,剔除那些得分过低或语义偏离的噪声项,优化最终输入。
3.上下文压缩(Context Compression)通过对长文本进行摘要精炼,或对图像特征进行降维、池化(Pooling)等压缩处理,系统能在有限的窗口内塞进更多有价值的背景知识,同时降低推理成本。
4.噪声注入(Noise Injection)这是一个极具前瞻性的策略。为了提升系统的鲁棒性,研究者会在训练或评估阶段故意混入一些看似相关实则干扰的“负样本”。通过这种方式,可以训练生成器具备“辨伪存真”的能力,使其在面对不完美的检索结果时,依然能输出准确的答案。
5.上下文融合(Context Fusion)作为多源异构检索结果向生成器交付的关键整合工序,多模态上下文融合分两大路径:
- **拼接式融合:**将多模态信息转译为 Token / 嵌入后显式拼接输入模型
上下文融合:拼接式融合
**FiE(编码器内融合):**编码阶段完成跨模态深度交叉,细粒度关联捕捉能力强,但长上下文处理因自注意力复杂度受限;
**FiD(解码器内融合):**多文档 / 图像独立编码后在解码阶段统一整合,扩展性更好,是大规模检索结果的主流方案。
- **隐式融合:**不做物理拼接,通过跨注意力 / 门控机制在模型隐空间动态注入模态特征,可灵活处理模态语义冲突、减少冗余干扰。
上下文融合:隐式融合
通过这五个步骤的层层递进,系统完成了从“原始检索结果”到“高质量知识载体”的华丽转变,为最后的生成环节铺平了道路。
第四步:生成阶段(Generation)——多模态融合的终局
MLLM的五大组件
这是将检索到的知识转化为最终答案的过程。一个标准的 MLLM 生成器包含五个核心组件:
**1.模态编码器 (Modality Encoder):**如 ViT 用于图像,HuBERT 用于音频,将原始信号转化为特征。
**2.输入投影器 (Input Projector):**通过 MLP 或 Q-Former 等结构,将异构特征映射到 LLM 能听懂的“通用语言”。
**3.LLM 骨干 (LLM Backbone):**大脑核心,负责逻辑推理。
**4.输出投影器 (Output Projector):**将生成的 Token 映射回特定模态的特征空间。
**5.模态生成器 (Modality Generator):**如 Stable Diffusion 或 ZeroScope,最终生成图片或视频。
四、 进阶挑战:视频理解与长上下文的“深水区”
CCF 大会上也强调了视频理解的特殊性。当前视频理解存在两大挑战:
关键帧定位:如何在 1 小时的视频里精准找到用户问的那 5 秒钟?这需要系统具备极强的时空定位能力。
**因果知识理解:**视频包含时序演变,模型理解事物发展和状态变化的能力还有待提升
四大突破:
- 结构化表征:利用场景图(Scene Graphs)**来提取帧与帧之间的动态关系,而非单纯处理像素。
- 噪声消除:视频中存在大量冗余帧,通过“聚合剪枝”技术,可以大幅提升生成效率。
未来展望:从实验室走向工业界
MM-RAG 的应用边界正在迅速扩张:
教育/办公:如 Google 的NotebookLM,正在重新定义我们处理多模态课堂笔记和文档的方式。
**医疗:**MMed-RAG等框架证明了跨模态检索在辅助诊断中的巨大潜力。
具身智能:让机器人在物理世界中通过检索历史视觉经验来辅助当前的动作决策。
结语
华中科技大学、复旦大学、中国电信及 UIC 研究团队的这篇综述,为我们构建 MM-RAG 系统提供了一份详尽的“航海图”。
从最初的关键词匹配,到如今全模态覆盖的端到端生成,MM-RAG 的进化本质上是人类对信息获取深度与广度的极致追求。对于 AI 技术爱好者而言,理解“分类框架”能帮我们定位场景,掌握“四步工作流”则能指引我们落地实践。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!