news 2026/4/16 20:02:42

【LLM大模型】从零实现大模型-GraphRAG,构建LLM中的关系数据库

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【LLM大模型】从零实现大模型-GraphRAG,构建LLM中的关系数据库

传统RAG

LLM预训练和微调一般都是基于公开的互联网数据,不可能包含公司内部私有数据,如果你问有关某公司的运营情况,直接基于模型参数生成的回答可能和胡说八道没什么两样。
RAG(Retrieval-Augmented Generation,检索增强生成)的思想就是将私有数据作为参考信息传递给LLM。这些私有数据除了作为一种补充信息,也可以作为一种限制,能避免LLM产生幻觉。

参考信息一般以文本、图片等非结构化形式存在。

RAG的流程是:

  1. 首先要将文本划分成片段,然后将片段转换成向量存储到向量数据库中备用,这个向量就是这段文本语义信息的数字表示。
  2. 将用户查询转换成向量,并与所有文本片段向量进行相似度计算,取出top k个片段。
  3. 将用户查询和k个文本片段组织成特定prompt格式输入到LLM中。

GraphRAG

但传统的RAG仍有一些限制。

例如,基于某个公司的运营数据搭建RAG,由于LLM上下文大小的限制,划分的文本片段不可能太大,所以每个文本片段不可能包含太多信息。

如果你问某个员工去年的销售业绩,基于RAG,LLM很可能会给出准确回答,因为某个文本片段很可能包含了某个员工的年终总结信息。但如果你问该员工所在团队去年的销售情况呢?就算某个文本片段包含了该团队的销售数据,LLM也很难通过该员工找到团队的其它成员。

微软最近提出的GraphRAG(Graph-based Retrieval Augmented Generation)就是解决这个问题。

GraphRAG就是将图和传统的RAG结合了起来

构造知识图谱#

图是由节点和边组成的,节点可以表示各种实体,边表示实体之间的关系。

GraphRAG的核心就是构造知识图谱,可以通过GPT4或者使用像llamaindex(KnowledgeGraphIndex)这样的库构造知识图谱。

将公司运营文档构造成知识图谱:

  1. 识别出文档中包含的实体以及实体之间的关系(员工,同事)
  2. 将实体进行聚类(同组同事)
  3. 对每个聚类进行总结(销售情况)
  4. 将实体进行向量化,转换到图向量空间
  5. 提取实体对应的原始文本,并转换成向量

查询#

当用户提问时,首先在知识图谱中找到与用户提问语义相关的实体,同时找到与实体相关的原始文本,最后将这些信息组织成特定prompt格式输入给LLM

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才!如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份LLM大模型资料分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

三、LLM大模型系列视频教程

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

阶段2:AI大模型API应用开发工程

阶段3:AI大模型应用架构实践

阶段4:AI大模型私有化部署

这份LLM大模型资料包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 11:03:25

新手如何建立网站?2026年主流建站步骤与工具全指南

在数字时代,拥有一个专业、可靠的网站已成为个人展示、企业运营的基石。然而,对于许多非技术背景的创业者、博主或小型企业主而言,“建站”二字听起来往往伴随着复杂的技术和高昂的成本。事实上,只要理清步骤,选对工具…

作者头像 李华
网站建设 2026/4/16 14:13:07

收藏备用|LoRA大模型高效微调详解(小白程序员入门必看)

对于刚接触大模型微调的小白,或是追求高效开发的程序员来说,LoRA绝对是绕不开的核心方法——它无需高性能硬件,就能以极小的参数量,实现媲美全参数微调的效果,堪称资源受限环境下的“微调神器”。本文从基础概念、原理…

作者头像 李华
网站建设 2026/4/15 2:55:13

计算机毕业设计之springboot基于Java的远程就医系统

随着网络科技的不断发展以及人们经济水平的逐步提高,网络技术如今已成为人们生活中不可缺少的一部分,而信息管理系统是通过计算机技术,针对用户需求开发与设计,该技术尤其在各行业领域发挥了巨大的作用,有效地促进了远…

作者头像 李华
网站建设 2026/4/8 6:10:24

汽车研发系统如何通过wangEditor实现MATLAB公式Web导入?

今天早上刚打开电脑,就收到一位教育行业开发者的微信咨询——对方正在为某初中学校开发智慧校园平台,急需在wangEditor编辑器中实现Word文档一键导入功能,重点需要解决教学场景中图片和公式的自动上传问题。虽然我的技术博客里公开了联系方式…

作者头像 李华