Langchain-Chatchat支持批量测试问答准确率的方法-平芜编程栈

Langchain-Chatchat 支持批量测试问答准确率的方法

在企业知识管理日益智能化的今天，越来越多组织开始构建基于私有文档的AI问答系统。然而，一个常见的困境是：我们如何确信这个“聪明”的助手真的理解了公司的制度、产品手册或技术规范？尤其是在更新了知识库或更换了语言模型之后，系统的回答质量是变好了还是变差了？

这正是Langchain-Chatchat这类本地化RAG（检索增强生成）系统必须面对的核心问题。它不仅需要“能答”，更需要“答得准”。而要衡量“准确”，仅靠人工抽查几十个问题远远不够——我们需要的是可量化、可重复、可自动化的批量测试能力。

Langchain-Chatchat 作为开源社区中较为成熟的中文本地知识库问答框架，其价值不仅体现在对PDF、Word等多格式文档的支持和全流程本地部署的安全性上，更在于它为工程化落地提供了关键支撑：一套完整的批量测试与评估机制。

这套机制的核心思想其实很朴素：

给定一组标准问题及其预期答案（即“黄金标准”），让系统逐一作答，然后自动对比输出结果与标准答案的一致性，最终统计出准确率、相似度得分等指标。

听起来简单，但在实际操作中涉及诸多细节设计。比如：

如何定义“答对”？是必须一字不差，还是语义相近即可？
如果用大模型自己来评判答案好坏，会不会太慢甚至产生偏见？
测试集本身是否应该随业务演进而持续迭代？
如何将这套流程嵌入到CI/CD中，实现每次知识库更新后的自动回归验证？

这些问题的答案，决定了整个系统的可信度与可持续性。

让我们从最基础的部分说起。

整个 Langchain-Chatchat 的工作流程遵循典型的 RAG 架构：先将私有文档解析成文本，再切分成块，通过嵌入模型（如 BGE、m3e）转化为向量并存入 FAISS 或 Chroma 等向量数据库；当用户提问时，系统会检索出最相关的几个文本片段，并将其与原始问题拼接成 Prompt，交由本地部署的大模型（如 ChatGLM、Qwen、Baichuan）生成最终回答。

这一整套链路虽然强大，但也意味着任何一个环节的变化都可能影响最终输出。例如：

调整分块大小可能导致关键信息被截断；
更换嵌入模型可能改变语义匹配效果；
升级 LLM 可能使原本正确的回答变得“更流畅但更错误”。

如果没有系统性的评估手段，这些变化带来的风险几乎是不可控的。

幸运的是，LangChain 框架本身提供了一套评估工具链，Langchain-Chatchat 在此基础上进行了适配与封装，使得开发者可以轻松实现自动化测试。

典型的批量测试脚本通常包含以下几个步骤：

准备测试数据集
创建一个结构化的文件（JSON 或 CSV），每条记录包含question和answer字段：
json [ { "question": "员工年假有多少天？", "answer": "正式员工享有5天带薪年假，服务满一年后每年递增1天，上限15天。" }, ... ]
加载已有 QA 链
复用生产环境中的RetrievalQA实例，确保测试路径与真实使用完全一致。
python from langchain.chains import RetrievalQA qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=vectorstore.as_retriever())
执行批量推理
遍历所有问题，调用模型获取预测答案：
python predictions = [qa_chain.run(q) for q in questions]
进行答案比对与评分

这是最具挑战性的部分。常见的评分策略有以下几种：

精确匹配（Exact Match）：适用于答案固定且简短的场景，如“公司成立时间是哪一年？”
python correct = pred.strip() == truth.strip()
虽然高效，但过于严格，容易因标点、语气词差异被判错。
ROUGE-L / BLEU-4：基于n-gram重叠的自动评价指标，在摘要任务中广泛应用。
python from rouge import Rouge rouge = Rouge() scores = rouge.get_scores(pred, truth)[0]['rouge-l']['f']
推荐阈值设为 0.7 以上视为通过，能较好捕捉语义一致性。
Sentence-BERT 相似度：将预测答案和标准答案分别编码为向量，计算余弦相似度。
python from sentence_transformers import SentenceTransformer model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') emb_pred = model.encode(pred) emb_truth = model.encode(truth) similarity = cosine_similarity([emb_pred], [emb_truth])[0][0]
适合长文本、表达多样化的场景，推荐阈值 ≥ 0.8。
LLM 自我评估（LLM-as-a-Judge）：利用更强的语言模型作为裁判，判断两个答案是否“意思相同”。
python from langchain.evaluation import load_evaluator evaluator = load_evaluator("qa", llm=judge_llm) result = evaluator.evaluate(prediction=pred, reference=truth, input=question) # 输出 {'score': 1} 表示正确
准确性高，尤其擅长处理复杂逻辑和隐含条件，但成本也更高。

实践中往往采用混合策略：高频测试使用轻量级方法（如 ROUGE），关键版本发布前则启用 LLM 评估做最终确认。

此外，Langchain-Chatchat 的设计允许你将评估模块独立出来，无需侵入主服务代码。只需编写一个独立的test_accuracy.py脚本，即可完成端到端的测试流程。

# 示例：基于 ROUGE-L 的快速评估 import json from rouge import Rouge def evaluate_batch(test_file: str, qa_chain, threshold=0.7): with open(test_file, encoding='utf-8') as f: data = json.load(f) rouge = Rouge() results = [] for item in data: pred = qa_chain.run(item["question"]) truth = item["answer"] try: score = rouge.get_scores(pred, truth)[0]['rouge-l']['f'] except: score = 0.0 passed = score >= threshold results.append({ "question": item["question"], "predicted": pred, "ground_truth": truth, "rouge_l": score, "passed": passed }) accuracy = sum(r["passed"] for r in results) / len(results) return accuracy, results

运行完成后，不仅可以得到整体准确率，还能输出详细的比对报告，便于分析失败案例。例如：

问题	预测答案	标准答案	ROUGE-L	是否通过
加班费怎么算？	工作日加班按1.5倍工资支付…	正常工作日加班按小时工资的150%计发…	0.82	✅
入职需要哪些材料？	身份证、学历证、离职证明	身份证、学位证书、原单位离职证明	0.63	❌