本文详细介绍了如何在Dify平台上构建RAG(检索增强生成)系统的实战教程。通过创建知识库、上传文档、配置分段模式和Embedding模型,将私有数据注入Dify的向量数据库。文章强调了"召回测试"功能对调试RAG检索环节的重要性,确保AI在生成答案前获取正确的参考资料。这是构建企业级AI应用的基础,为后续创建专业领域的AI聊天机器人做好准备。
一、什么是RAG?
RAG,全称 Retrieval-Augmented Generation(检索增强生成),简单说就是“先查资料,再回答问题”的大模型应用模式。
它不会只靠模型记忆硬编,而是先从你的私有文档或数据库里检索出相关内容,再把这些结果连同问题一起交给大模型生成答案。
这样既能让模型用上最新、最专业的企业内部知识,又能降低幻觉率,让回答更可控、更可追溯,是目前企业级 AI 应用里最主流、也最容易落地的一种架构。
大家先简单理解即可,先动手,后面我们会详细的学习RAG的知识。
二、Dify 的“数据集”到底是什么?
在 Dify 的顶部导航栏,你会看到一个核心模块——“知识库”。
工程师请注意:
这绝不只是一个“上传文件的文件夹”。
Dify 的“知识库”模块,是一整套“开箱即用”的 RAG 流水线。
你点几下鼠标,Dify 就在后台帮你完成了 LangChain/LlamaIndex 需要写几十上百行 Python 代码才能搞定的所有“脏活累活”:
- 数据提取 (Ingestion):自动解析 PDF、TXT、Markdown、DOCX、PPTX 等文件。
- 文本分块 (Chunking):把长文档切成“语义相关”的小块。
- 向量化 (Embedding):调用你配置的 Embedding 模型,把文本块变成“向量”。
- 数据索引 (Indexing):把这些向量存入 Dify 内置的向量数据库(如 Weaviate)。
- 数据检索 (Retrieval):提供检索接口,供 AI 应用调用。
我们今天的任务,就是走通这条流水线。
三、第一步:创建“知识库”
- 点击顶部“知识库”菜单。
- 点击“创建知识库”按钮。
可以先选择创建空白知识库,随后再设置。给它起个名字。我们就叫:“数据治理专家知识库”。
这样我们就有了一个自己的知识库了。
在设置里可以做权限的管理。
四、第二步:上传文档
你可以通过上传本地文件、同步Notion、导入在线数据的方式上传文档至知识库内。
指定分段模式
将内容上传至知识库后,接下来需要对内容进行分段与数据清洗。该阶段是内容的预处理与数据结构化过程,长文本将会被划分为多个内容分段。
知识库支持两种分段模式:通用模式与父子模式。
点击预览块,可以看到分段情况。
随后选择模型,做检索的设置,保存。
之后提示文档上传成功就可以了。
文档上传后,Dify 的 worker 服务(我们 docker-compose 里的 dify-worker 容器)开始在后台“疯狂运转”了。
当所有文档都显示“已完成”,并出现了“分段数”时,恭喜你!
你的“数据治理”知识已经 100% 被 Dify “消化”和“吸收”,并存入了它自己的私有向量数据库。你的“金矿”已经备好了。
五、第三步:RAG调试
上传成功后,可以对文档做进一步管理。
这里有两个决定 RAG 效果的“命门”:
- Embedding 模型(向量化的“标尺”)
- 这里就是我们上一篇“注入灵魂”的成果体现。
- 你必须在这里指定一个 Embedding 模型。Dify 会用这个模型,把你所有的“中文文档”转换成“数学向量”。
- 建议: 如果你接入了智谱,就选 embedding-2;如果用的是本地 Ollama,就选你下载好的中文 Embedding 模型(如 bge-base-zh-v1.5)。选错了(比如用一个英文模型去处理中文),RAG 效果会一塌糊涂。
- 分段设置(文本“切块”的刀法)
- 文本分段器: 我们选择“通用分段器”。
- 工程师看这里: “通用分段器”下面有两个核心参数:
- 分段大小 (Chunk Size):比如 1000。代表 AI 一次“阅读”的“上下文”最大长度(Token 数)。
- 分段重叠 (Chunk Overlap):比如 200。代表两“块”数据之间重叠的 Token 数,这是为了防止“语义”被硬生生切断(比如一句话的后半句在下一块)。
这就是“文本分块”的“硬科学”。对于 PDF、长 TXT 来说,合理的配置(如 1000/200)是保证“召回率”和“精召率”的基础。我们暂时保持默认。
六、工程师的“自检”:召回测试
作为一个严谨的工程师,AI 应用还没建,我怎么知道 RAG 到底好不好使?
Dify 提供了“召回测试”功能。
- 在“知识库”里,切换到“召回测试”选项卡。
- 在搜索框里,输入一个你文档里才有的“黑话”,比如:“什么是主数据?”
- 查看结果: Dify 不会给你“答案”,而是会返回它从向量库里“检索”到的“原始文本块”。
为什么这个功能对我们至_关重要?_
“RAG = Retrieval + Generation”。
如果 Retrieval(检索)这一步返回的“原文”都是垃圾,那 Generation(生成)那一端的 LLM 再聪明,也是“垃圾进,垃圾出”。
“召回测试”让我们有能力独立调试 RAG 的“检索”环节,确保 AI 在“思考”之前,拿到的“参考资料”是对的。
总结与预告
今天,我们干了件大事。
我们利用 Dify 的“知识库”产线,把“数据治理”这个专业领域的“私有知识”,成功“注入”到了 Dify 的向量库中。
- “工厂”有了(Docker 部署)。
- “大脑”有了(模型配置)。
- “原料”也有了(“数据治理”知识库)。
一切准备就绪。
下一篇,就是把“大脑”和“原料”连接起来,亲手创建第一个“AI 聊天机器人”,并让它成为一个“上知公司数据治理规范、下知数据质量考核标准”的 AI 专家。
一起折腾 Dify
如果你已经在用 Dify 做知识库、RAG 或者 Agent 应用,肯定还会遇到一堆非常具体的工程问题。
我这边在搭一个「AI工程化学习群」,主要会做三件事:
- 一起交流 Dify 的升级与运维经验。
- 拆解多模态知识库、RAG 工作流在真实业务里的架构设计。
- 不定期更新我在实际工作中沉淀的工作流模板和踩坑记录,方便大家直接拿去改。
当然Dify只是开始。过去,我做了10年的数据工程化。未来,我准备再做10年的AI工程化!
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!