ChatGLM3-6B实操手册：对接LangChain实现文档切片+向量检索+答案生成-平芜编程栈

ChatGLM3-6B实操手册：对接LangChain实现文档切片+向量检索+答案生成

1. 项目概述

今天我们来探索一个非常实用的技术方案：如何将ChatGLM3-6B这个强大的本地大模型与LangChain框架结合，构建一个能够处理长文档的智能问答系统。这个方案特别适合需要处理大量文档内容的企业或个人用户。

传统的文档处理方式往往需要人工阅读和提取信息，效率低下且容易出错。而我们的方案通过三个核心步骤实现自动化智能处理：首先将长文档切成小块，然后建立智能检索系统，最后让模型基于检索到的内容生成准确答案。

这个方案的最大优势是完全在本地运行，确保数据安全，同时利用ChatGLM3-6B的32k长上下文能力，能够处理复杂的文档内容。

2. 环境准备与安装

在开始之前，我们需要准备好运行环境。以下是详细的安装步骤：

2.1 基础环境要求

确保你的系统满足以下要求：

Python 3.8或更高版本
至少16GB内存（推荐32GB）
NVIDIA显卡（RTX 4090D或同等级别，24GB显存）
CUDA 11.7或更高版本

2.2 安装依赖包

打开终端，执行以下命令安装必要的依赖：

# 创建虚拟环境 python -m venv glm3-langchain-env source glm3-langchain-env/bin/activate # Linux/Mac # 或 glm3-langchain-env\Scripts\activate # Windows # 安装核心依赖 pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cu118 pip install transformers==4.40.2 pip install langchain==0.1.0 pip install streamlit==1.28.0 pip install sentence-transformers==2.2.2 pip install chromadb==0.4.15 pip install pypdf==4.1.0 pip install unstructured==0.12.5

这些版本经过严格测试，确保组件间兼容性，避免常见的版本冲突问题。

3. 核心概念解析

在开始编码前，我们先理解几个关键概念：

3.1 文档切片（Text Splitting）

文档切片是将长文档分割成较小片段的过程。为什么要这样做？因为大模型有上下文长度限制，即使ChatGLM3-6B支持32k长度，过长的文档也会影响处理效果。

好的切片策略应该保持语义完整性，确保每个片段都有独立的意义，同时大小适中。

3.2 向量检索（Vector Retrieval）

向量检索是将文本转换为数学向量，然后通过相似度计算找到相关内容的技术。就像图书馆的智能检索系统，能够快速找到与问题最相关的文档片段。

3.3 答案生成（Answer Generation）

这是整个流程的最后一步，模型基于检索到的相关文档片段，生成准确、连贯的答案。ChatGLM3-6B的强大能力在这里得到充分体现。

4. 完整实现步骤

现在让我们一步步实现这个文档问答系统。

4.1 初始化ChatGLM3-6B模型

首先加载ChatGLM3-6B模型，这是我们的核心推理引擎：

from transformers import AutoModel, AutoTokenizer import torch def load_chatglm_model(): """加载ChatGLM3-6B模型""" model_path = "THUDM/chatglm3-6b" # 加载tokenizer tokenizer = AutoTokenizer.from_pretrained( model_path, trust_remote_code=True ) # 加载模型 model = AutoModel.from_pretrained( model_path, trust_remote_code=True, torch_dtype=torch.float16, device_map="auto" ) # 设置为评估模式 model.eval() return model, tokenizer # 初始化模型 model, tokenizer = load_chatglm_model() print("模型加载完成！")

4.2 文档加载与切片处理

接下来实现文档加载和智能切片功能：

from langchain.document_loaders import PyPDFLoader from langchain.text_splitter import RecursiveCharacterTextSplitter def load_and_split_documents(file_path): """加载PDF文档并进行智能切片""" # 加载文档 loader = PyPDFLoader(file_path) documents = loader.load() # 创建文本分割器 text_splitter = RecursiveCharacterTextSplitter( chunk_size=1000, # 每个片段约1000字符 chunk_overlap=200, # 片段间重叠200字符 length_function=len, ) # 分割文档 splits = text_splitter.split_documents(documents) print(f"文档分割完成，共得到{len(splits)}个片段") return splits # 使用示例 doc_splits = load_and_split_documents("your_document.pdf")

4.3 构建向量数据库

现在创建向量数据库来存储和检索文档片段：

from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import Chroma def create_vector_store(documents): """创建向量数据库""" # 初始化嵌入模型 embeddings = HuggingFaceEmbeddings( model_name="sentence-transformers/all-MiniLM-L6-v2" ) # 创建向量存储 vectorstore = Chroma.from_documents( documents=documents, embedding=embeddings, persist_directory="./chroma_db" ) # 持久化存储 vectorstore.persist() return vectorstore # 创建向量数据库 vector_db = create_vector_store(doc_splits) print("向量数据库构建完成！")

4.4 实现检索增强生成（RAG）

最后实现完整的问答流程：

from langchain.chains import RetrievalQA from langchain.prompts import PromptTemplate def setup_qa_chain(vector_store, model, tokenizer): """设置问答链""" # 自定义提示模板 prompt_template = """基于以下上下文信息，请回答问题。如果上下文信息中没有答案，就说你不知道，不要编造答案。 上下文： {context} 问题：{question} 答案：""" PROMPT = PromptTemplate( template=prompt_template, input_variables=["context", "question"] ) # 创建检索器 retriever = vector_store.as_retriever( search_type="similarity", search_kwargs={"k": 4} # 检索最相关的4个片段 ) # 定义LLM包装器 class ChatGLMWrapper: def __call__(self, prompt): response, _ = model.chat( tokenizer, prompt, history=[] ) return response llm = ChatGLMWrapper() # 创建问答链 qa_chain = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", retriever=retriever, chain_type_kwargs={"prompt": PROMPT}, return_source_documents=True ) return qa_chain # 设置问答链 qa_chain = setup_qa_chain(vector_db, model, tokenizer)

5. 构建Streamlit交互界面

现在让我们创建一个用户友好的界面：

import streamlit as st import time # 设置页面标题 st.set_page_config( page_title="ChatGLM3-6B文档问答系统", page_icon="🤖", layout="wide" ) # 初始化session state if "qa_chain" not in st.session_state: with st.spinner("正在加载模型和文档..."): # 这里应该包含前面所有的初始化代码 st.session_state.qa_chain = qa_chain st.success("系统初始化完成！") # 创建界面 st.title("📚 ChatGLM3-6B文档智能问答系统") # 文件上传区域 uploaded_file = st.file_uploader( "上传PDF文档", type="pdf", help="支持上传PDF格式的文档" ) # 问答区域 question = st.text_input( "请输入您的问题：", placeholder="例如：这篇文章的主要观点是什么？" ) if st.button("获取答案") and question: with st.spinner("正在思考中..."): start_time = time.time() # 获取答案 result = st.session_state.qa_chain({"query": question}) end_time = time.time() # 显示答案 st.subheader("答案：") st.write(result["result"]) # 显示参考来源 st.subheader("参考来源：") for i, doc in enumerate(result["source_documents"]): with st.expander(f"来源 {i+1} (页码: {doc.metadata.get('page', 'N/A')})"): st.write(doc.page_content) # 显示处理时间 st.info(f"处理耗时：{end_time - start_time:.2f}秒") # 侧边栏信息 with st.sidebar: st.header("系统信息") st.write("**模型**: ChatGLM3-6B-32k") st.write("**向量数据库**: ChromaDB") st.write("**嵌入模型**: all-MiniLM-L6-v2") st.header("使用说明") st.write("1. 上传PDF文档") st.write("2. 输入您的问题") st.write("3. 点击'获取答案'按钮") st.write("4. 查看答案和参考来源")

6. 实际应用案例

让我们通过一个具体例子看看这个系统的强大之处。

假设你上传了一篇50页的技术白皮书，想要了解其中的关键技术要点。传统方式需要通读全文，耗时且容易遗漏重点。使用我们的系统：

上传文档：将PDF文件拖拽到上传区域
提出问题：输入"这篇白皮书的主要技术创新点有哪些？"
获取答案：系统自动检索相关段落，生成总结性答案
查看来源：可以点击查看每个要点的具体出处和上下文

另一个实用场景是学术研究。研究人员可以上传多篇论文，然后询问："这几篇论文在方法论上有哪些共同点？"系统会跨文档检索相关信息，提供综合分析。

7. 性能优化建议

为了让系统运行更加高效，这里有一些实用建议：

7.1 硬件优化

使用高速SSD存储向量数据库，加快检索速度
确保有足够的内存（32GB推荐）
使用性能足够的GPU（RTX 4090D或同等级别）

7.2 软件优化

调整切片大小：对于技术文档，800-1200字符的片段效果较好
优化检索参数：根据文档类型调整检索的片段数量
使用更好的嵌入模型：对于中文文档，可以考虑使用中文优化的嵌入模型

7.3 使用技巧

问题要具体：越具体的问题通常能得到越准确的答案
多次追问：如果第一次答案不完整，可以基于已有信息继续追问
检查来源：重要信息务必查看原始出处确认准确性

8. 总结

通过本教程，我们成功构建了一个基于ChatGLM3-6B和LangChain的智能文档问答系统。这个系统具备以下特点：

核心优势：

完全本地运行，确保数据安全和隐私保护
支持长文档处理，利用32k上下文能力
提供准确答案并标注来源，方便验证
用户友好的交互界面，开箱即用

适用场景：

企业知识库问答
学术文献研究
技术文档查询
法律条文检索

未来扩展：这个基础框架可以进一步扩展，比如支持更多文档格式、添加多文档对比分析、实现对话历史记忆等功能。

最重要的是，这个方案解决了实际工作中的痛点：如何快速从大量文档中提取有用信息。无论是技术人员、研究人员还是业务人员，都能从中受益。

现在你可以尝试上传自己的文档，体验智能问答的便利了！

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

ChatGLM3-6B实操手册：对接LangChain实现文档切片+向量检索+答案生成