news 2026/5/7 8:35:21

多模态RAG真香!一文带你掌握AI开发的最新技术趋势,小白也能秒懂的编程干货!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态RAG真香!一文带你掌握AI开发的最新技术趋势,小白也能秒懂的编程干货!

多模态RAG目前主流的思路有两种,一种是模态对齐,另一种是使用文本作为中间模态进行转换。

RAG技术目前已经被广泛应用于智能问答,知识库等场景;但随着需求的不断深化,简单的文本问答已经很难满足需求,因此多模态RAG就被提上了日程。

但是,多模态模型虽然经过一两年时间的发展,但在多模态RAG领域依然存在很多问题,这也是目前多模态RAG应用比较少的原因之一;虽然说网上存在部分多模态RAG的教学,但大部分都是理论介绍和一些基础入门,而在实际开发中基本上没任何作用。

多模态RAG

但不管怎么说,多模态RAG作为未来的发展方向,我们还是要对其有一定的了解。

首先,第一点多模态指的是不同模态的数据,这里的模态指的是数据的不同形式,主要包括以下几种,文本,图片,音频,视频;其中表格数据算不上多模态类型,因为表格是一种数据组织结构,而不是一种数据格式。

其次,目前市面上所谓的多模态模型,大部分也仅仅支持两种模态,如文字转图片,语音,视频等;即使所谓的全模态模型,也只是只是更多的模态类型,但也只能同时使用一种;如你上传图片,就不能上传音频和视频内容。

如下图所示,虽然支持了多种模态的数据,但并不是同时支持多种模态数据。

而且,从工程开发的实操角度来看,你会发现这些多模态模型的请求接口,不同模态的数据使用的是不同的参数,并不能把多种模态的数据放到一块处理。

所以,从这一点来说,所谓的多模态其实应该叫两模态,主要就是文本与其它模态的转换。

我想很多人应该对多模态RAG比较好奇,因为很多人听说过多模态RAG,但好像在真实的工作中并没有遇到过多模态,或者说用到的很少。并且没有针对多模态RAG做个真正的工程化开发,大都是跑个小DEMO yy一下。

事实上,多模态RAG要远比我们想象中的复杂,它并不是说调几个多模态模型就可以了,它需要解决很多复杂的问题;如多模态的文档切分,提取,转换,生成,选择哪些模型,参数怎么传。

举个例子,如果针对一个房屋设计的文档做多模态RAG怎么搞?因为大楼设计的核心在于设计图,文字描述只是用来辅助理解,怎么精确的查找到需要的图纸?如果让模型仿照图纸做优化设计怎么搞?

当然,这其中很多问题作者到现在也没搞明白,但学一点就记录一点,哪怕都是问题至少也是自己学习和思考的过程。

首先,通过使用openai之前发布的老的经典多模态模型clip,作者发现一个问题;在之前,作者对多模态最直观的理解是文搜图和图搜图;这一点相对应用场景比较广,如电商平台的搜索功能,并且易于理解。

但之前作者认为的多模态RAG,就是让多模态模型去理解图片,音频或视频中的内容,并做文字总结;之后,再对总结的文字做向量化,之后通过文字向量计算的方式来查找。

但研究了Clip之后才发现,Clip是直接把文字,还有图片转换成向量,然后通过模态对齐的方式,让文字向量和图片向量产生关联,然后可以进行相似度计算。即通过文字搜图片(text-to-image),通过图片搜文字(image-to-text),通过文字搜文字(text-to-text),通过图片搜图片(image-to-image)。

所以,现在多模态RAG的实现方式主要有两种或者说三种,一种是直接同模态数据进行搜索,如文本搜索,图搜图等;这种相对就比较简单,同一种模态的数据进行相似度计算也很合理。第二种就是跨模态,如文搜图,文生图等,让不同模态的数据产生交集;而针对这种跨模态数据,有两种实现方式,一种就是模态对齐的方式,直接把不同模态的数据转换成向量格式进行处理;第二种就是通过文本作为中间格式,比如对图片进行总结,然后生成总结文本,通过总结文本进行检索。并不直接对图片本身进行检索。

受限于模型技术的发展,多模态技术目前还处于初级阶段,还存在各种各样的问题;因此,多模态RAG针对不同的场景也有不同的实现思路,并不能一概而论。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/6 14:54:43

[Windows] Chrome-正式版144.0.7559.97-便携版

[Windows] Chrome-正式版144.0.7559.97-便携版 链接:https://pan.xunlei.com/s/VOjZplajhB2LHT_us9a3TmRJA1?pwdqjf8# [Windows] Chrome-正式版144.0.7559.97-便携版

作者头像 李华
网站建设 2026/5/6 23:27:24

达梦v$lock视图查询事务锁

V$LOCK 是达梦数据库(DM Database)中一个核心的动态性能视图,用于实时监控和诊断数据库中的锁信息。它是数据库管理员和开发人员进行性能调优、解决阻塞和死锁问题的关键工具。一、视图概述V$LOCK 显示了当前数据库中所有活动的事务&#xff…

作者头像 李华
网站建设 2026/5/6 23:26:43

便捷二维码视频播放工具助力高效信息传播

便捷二维码视频播放工具是一种提升信息传播效率的新方式。用户可以快速生成二维码,将视频内容嵌入其中,实现简单快捷的分享。通过这一工具,用户能够在多种场合中高效传播信息,具体包括: 快速分享:用户可以…

作者头像 李华
网站建设 2026/5/6 23:27:08

便携式实时仿真综合测试仪

便携式实时仿真综合测试仪TesterRT 便携式实时仿真综合测试仪TesterRT具有信号接口齐全,易扩展,能够满足各装备领域的常规测试需求,适用于装备系统集成验证以及外场维护保障等场合。TesterRT通过其内置的测试软件能够快速实现数据激励、数据…

作者头像 李华
网站建设 2026/5/6 23:02:09

高实时性嵌入式系统半实物仿真测试平台

半实物仿真测试系统开发平台ETest_RT 1)产品简介 ETest_RT是一款高实时性嵌入式系统半实物仿真测试平台(Embedded Real-Time Testing System Studio RT,简称:ETest_RT),仿真步长可达微秒级,适合于航空航天…

作者头像 李华