Langchain-Chatchat如何实现问答结果打印功能？物理存档-平芜编程栈

Langchain-Chatchat如何实现问答结果打印功能？物理存档

在企业数字化转型不断深入的今天，信息的准确性与可追溯性已成为组织管理的核心诉求。尤其是在人力资源、法务合规、内部审计等场景中，仅“看到”AI的回答是远远不够的——人们更需要一份可以签字、归档、提交审批的纸质或标准格式文件。这正是“物理存档”价值所在。

Langchain-Chatchat 作为一款支持本地部署、私有知识库接入的智能问答系统，不仅解决了数据安全和响应精准的问题，还通过灵活的输出扩展能力，实现了从“屏幕对话”到“正式文档”的跨越。那么，它是如何做到将一次简单的问答转化为可用于打印的存档材料的？我们不妨从一个真实场景切入：

设想一位HR员工在系统中查询：“年假是否可以分次休？”
系统返回答案后，他点击“打印回答”按钮，几分钟内，一台连接内网的打印机就吐出了一份带有公司抬头、时间戳、引用来源页码的PDF文档。这份文件随后被附在员工请假审批表后，作为政策依据存入人事档案。

这一切的背后，是一套融合了知识检索、结构化输出与自动化文档生成的技术链路。下面我们来拆解这一过程的关键环节。

问答生成：让模型说“该说”的话

要实现后续的打印与归档，第一步必须确保回答本身是可控、规范且可解析的。如果模型自由发挥，输出诸如“嗯…我记得好像是可以吧”之类的模糊语句，显然无法用于正式场合。

Langchain-Chatchat 借助Retrieval-Augmented Generation（RAG）架构和Prompt 工程实现了这一点。其核心流程如下：

用户提问 → 系统使用 Embedding 模型将问题转为向量；
在本地 FAISS 或 Chroma 向量库中检索最相关的文档片段；
将这些片段作为上下文，拼接进预设的 Prompt 模板；
输入本地大模型（如 ChatGLM、Qwen），生成最终回答。

关键在于第三步——Prompt 的设计。它不仅是引导模型行为的“指令”，更是决定输出能否被程序处理的基础。

from langchain.chains import RetrievalQA from langchain.prompts import PromptTemplate prompt_template = """你是一个企业知识助手，请根据以下内容回答问题： 相关信息: {context} 问题: {question} 请用正式、简洁的语言作答，不要包含不确定的信息。 回答:""" PROMPT = PromptTemplate(template=prompt_template, input_variables=["context", "question"]) qa_chain = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", retriever=vectorstore.as_retriever(), chain_type_kwargs={"prompt": PROMPT} ) response = qa_chain.run("公司的年假政策是什么？") print(response)

这个模板强制模型以“回答:”开头输出内容，看似微小的设计，实则意义重大：前端或后端程序可以通过字符串匹配轻松提取有效答案，避免因格式混乱导致解析失败。这种“机器友好型输出”正是实现自动化存档的前提。

此外，借助ConversationBufferMemory等机制，系统还能维持多轮对话状态，确保复杂交互下的上下文连贯性。比如用户追问“那病假呢？”，系统能自动关联前文语境，给出一致性的回应。

输出封装：把答案变成“文件”

有了标准化的回答，下一步就是将其“包装”成适合打印的形式。真正的挑战不在于“能不能打”，而在于“打得有没有依据、能不能追责”。

理想的存档文件不应只有问答内容，还应包括：
- 提问时间
- 用户身份（可选）
- 回答来源文档及具体页码
- 模型置信度或相似度评分（可选）

这些元数据共同构成了审计追踪链条，使得AI生成的内容具备法律意义上的可采信性。

Langchain-Chatchat 虽然没有原生提供“一键打印”功能，但其模块化设计允许开发者轻松扩展输出接口。以下是一个典型的 PDF 存档函数实现：

import datetime from fpdf import FPDF import os def save_answer_to_pdf(question, answer, source_docs, output_dir="archives"): if not os.path.exists(output_dir): os.makedirs(output_dir) timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S") filename = f"{output_dir}/QnA_{timestamp}.pdf" pdf = FPDF() pdf.add_page() pdf.set_auto_page_break(auto=True, margin=15) pdf.set_font("Arial", size=12) # 标题 pdf.cell(0, 10, '企业知识库问答存档', ln=True, align='C') pdf.ln(10) # 元数据 pdf.set_font("Arial", size=10) pdf.cell(0, 10, f"提问时间: {timestamp}", ln=True) pdf.cell(0, 10, f"问题: {question}", ln=True) pdf.ln(5) # 回答 pdf.set_font("Arial", style='B', size=11) pdf.cell(0, 10, "回答:", ln=True) pdf.set_font("Arial", size=11) pdf.multi_cell(0, 7, answer) pdf.ln(5) # 来源文档 pdf.set_font("Arial", style='B', size=11) pdf.cell(0, 10, "参考文档:", ln=True) pdf.set_font("Arial", size=10) for doc in source_docs: title = doc.metadata.get("title", "Unknown") page = doc.metadata.get("page", "N/A") pdf.cell(0, 7, f"- {title}, 第{page}页", ln=True) pdf.output(filename) print(f"已保存问答记录至: {filename}") return filename

这段代码利用fpdf库生成结构清晰、排版整齐的 PDF 文件。重点在于：
- 使用固定字段提升专业感；
- 多行文本采用multi_cell避免截断；
- 来源标注增强可信度。

⚠️ 若需中文显示，建议替换字体为支持中文的 TTF 文件，例如：

pdf.add_font('SimSun', '', 'simsun.ttc', uni=True) pdf.set_font('SimSun', size=12)

该函数可被集成进 Web 接口，当用户点击“打印”按钮时，由后端异步调用并返回下载链接，甚至触发本地打印机执行硬拷贝。

知识底座：一切准确性的源头

无论输出多么精美，若底层知识不可靠，整个系统便失去了根基。Langchain-Chatchat 的一大优势，在于其完整的本地知识库构建能力。

整个流程可概括为四个步骤：

文档加载：支持 PDF、Word、TXT 等多种格式，使用PyPDFLoader、UnstructuredFileLoader等组件读取原始内容；
文本切片：通过RecursiveCharacterTextSplitter将长文档按逻辑单元分割成 256~512 token 的 chunk，平衡语义完整性与检索效率；
向量化编码：采用国产化中文 Embedding 模型（如text2vec-large-chinese）进行本地向量化，无需上传数据；
向量存储与检索：使用 FAISS 构建本地索引，支持毫秒级相似度搜索。

from langchain.document_loaders import PyPDFLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import FAISS # 加载文档 loader = PyPDFLoader("company_policy.pdf") documents = loader.load() # 分割文本 splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50) texts = splitter.split_documents(documents) # 向量化 embeddings = HuggingFaceEmbeddings(model_name="GanymedeNil/text2vec-large-chinese") # 构建并保存向量库 vectorstore = FAISS.from_documents(texts, embeddings) vectorstore.save_local("vectorstore/db_faiss")

这套本地闭环流程彻底规避了数据外泄风险，特别适用于对安全性要求极高的政府机关、金融机构和制造业企业。

更重要的是，知识库支持增量更新。新发布的制度文件只需重新运行上述脚本，即可自动合并进现有索引，保证系统始终反映最新政策。

落地实践：从技术到业务的闭环

在一个典型的企业部署环境中，Langchain-Chatchat 的工作流通常是这样的：

[用户界面] ↓ (HTTP 请求) [Flask/FastAPI 后端] ↓ [问答引擎模块] ├── 问题接收 → 检索QA链 ├── 调用向量数据库（FAISS） ├── 调用本地LLM（如ChatGLM3-6B） └── 输出结果 → 返回前端 / 写入文件 ↓ [物理存档模块] ├── 格式化 → PDF/DOCX ├── 添加元数据（时间、来源） └── 本地存储 or 打印机输出

系统运行于一台配备 GPU 的本地服务器上，所有组件均可离线运行，完全脱离公网依赖。

解决的实际问题

业务痛点	技术应对
政策文件分散，查找耗时	统一导入知识库，全文语义检索
AI回答无依据，难信任	RAG机制+来源标注，提升透明度
审批流程需纸质留痕	自动生成PDF并支持打印
敏感信息不能上云	全流程本地化，零数据外传