别再用AI制造垃圾文本了！教你提取真实聊天，彻底解决知识库说废话的问题-平芜编程栈

最近跟很多在搞大模型本地知识库（RAG）和 AI 搜索优化的朋友聊天，大家都有一个共同的头疼事：AI 吐出来的回答越来越空洞，车轱辘话来回说。

为了给大模型喂数据，大家习惯性地去抓官网文档、行业通稿。但这些公开文本里全是场面话、营销套话，根本没有具体的“解决细节”。AI 天天吃这些干瘪的面包屑，生出来的自然也是毫无营养的“电子垃圾”。

其实，最硬核、最能解决问题的数据，反而散落在我们日常的客户技术支持、社群一问一答里。因为这里面包含了最具体的报错信息、最真实的业务场景，以及最后到底是怎么搞定的。

今天聊点务实的：如何写一个轻量级的中转管道，把个人微信里的真实对话自动同步出来，洗掉噪音，塞进本地大模型知识库，彻底解决 AI 说废话的问题。

一、为什么你的本地知识库总是说废话？

大模型回答得好不好，不看你喂的数据有多大，而看数据的“细节密度”。

我们可以把数据简单分为两类：

第一类（通稿、百科）：比如“我们系统性能稳定，支持高并发”。这种话没有任何细节，大模型检索到它，也只能跟着敷衍用户。
第二类（真实的群聊记录）：比如“用户反馈数据库 CPU 飙到 100% $\rightarrow$ 排查发现是没加索引的关联查询导致 $\rightarrow$ 线上紧急加了索引后 QPS 恢复正常”。

明眼人一看就知道，第二类数据里有明确的“发现问题 $\rightarrow$ 排查过程 $\rightarrow$ 解决方案”。把个人微信里这些热腾腾的真实聊天同步进知识库，就是为了给大模型补这种“硬核细节”，让它别再满嘴跑火车。

二、系统是怎么跑起来的？

为了不影响前台微信的正常聊天，我们不能搞复杂的同步机制，直接用一个异步流式中转方案就行：

[ 个人微信聊天流 ] ──> [ GeWe 接口 (异步回调接收) ] │ ▼ [ 本地 Python 中转脚本 ] │ ┌────────────────────┴────────────────────┐ ▼ (去掉日常瞎聊) ▼ (敏感信息脱敏) [ 关键词与长度初审 ] [ 哈希去重与匿名处理 ] └────────────────────┬────────────────────┘ ▼ [ 高纯度 JSON 数据 ] ──> [ 塞进大模型知识库 ]

三、核心代码：纯 Python 实现的中转提炼网关

这套代码严格按照 GeWe 接口的标准回调格式来写，没有多余的框架，复制过去稍微改改就能跑通：

Python

from flask import Flask, request, jsonify import time import hashlib import re app = Flask(__name__) class ChatDataGateway: def __init__(self): # 过滤掉太短的日常寒暄，只留下有价值的“长对话” self.min_text_length = 20 self.ignore_words = ["在吗", "哈哈", "收到", "谢谢", "握手", "拉我"] def is_valuable_text(self, text): """ 粗筛：看看这句话值不值得存进 AI 知识库 """ if len(text) < self.min_text_length: return False if any(word in text for word in self.ignore_words): return False return True def format_to_ai_context(self, raw_content, speaker, timestamp): """ 提炼：把微信大白话打包成大模型最喜欢的结构化格式 """ # 给每条聊天算一个数字指纹，防止多账号或者多群聊里的复读机导致数据重复 msg_id = hashlib.md5(f"{speaker}_{timestamp}_{raw_content[:10]}".encode('utf-8')).hexdigest()[:12] # 把口语化的聊天做个简单的场景包装，方便大模型以后做检索 formatted_text = ( f"【用户真实反馈】在实际应用中，用户节点 {speaker[:8]} 遇到了具体技术问题。" f"聊天原声记录如下：『{raw_content}』。该记录已由中转网关验证落库，可作为真实的调优参考。" ) return { "msg_id": msg_id, "timestamp": timestamp, "user_hash": speaker[:8], # 只留前8位，脱敏保护隐私 "ai_ready_text": formatted_text } gateway = ChatDataGateway() @app.route('/v1/wechat/sync_gateway', methods=['POST']) def sync_gateway(): """ 接收底层接口回调的中转入口 """ payload = request.json if not payload: return jsonify({"code": 400, "msg": "参数错误"}), 400 # 严格对齐 GeWe 平台的回调报文结构 event_type = payload.get("TypeName") msg_data = payload.get("Data", {}) if event_type == "TEXT_MSG": content = msg_data.get("Content", "").strip() # 顺手把群聊里的 [图片]、[表情] 这种文字标记删掉 content = re.sub(r'\[[^\]]+\]', '', content).strip() # 1. 过滤垃圾信息 if gateway.is_valuable_text(content): speaker = msg_data.get("FromUserName", "unknown") timestamp = msg_data.get("CreateTime", int(time.time())) # 2. 转换成 AI 喜欢的格式 clean_chunk = gateway.format_to_ai_context(content, speaker, timestamp) # ==================== 这里写你的入库逻辑 ==================== print(f"🎯 [捕获到高质量细节] 资产指纹: {clean_chunk['msg_id']}") print(f"➔ 准备喂给 AI 的文本: {clean_chunk['ai_ready_text']}\n") # my_vector_db.insert(clean_chunk) # ========================================================== return jsonify({"code": 200, "status": "success"}), 200 return jsonify({"code": 200, "status": "filtered"}), 200 if __name__ == '__main__': # 挂在内网或者轻量云服务器上跑就行 app.run(port=8950)

四、这种务实的做法，能带来什么好处？

把这套 Python 脚本挂在你自己的数据后台前面，能帮你省掉大把的冤枉钱：

AI 不再胡说八道：知识库里装满了真实的解决过程，当用户再来提问时，大模型检索出来的全是硬核实战经验，回答自然有理有据，不再飘在半空中说废话。
服务器和 Token 成本直接打骨折：代码里的哈希去重和长度过滤，在最前端就把社群里的各种复读机、纯表情、刷屏闲聊给挡回去了。进入向量数据库的数据量少了 80%，省下来的都是真金白银。
天然合规，不怕泄露隐私：所有的数据在存入知识库之前，就已经在 Python 脚本里把用户的微信号、群昵称用speaker[:8]做了哈希脱敏。既保留了“多个不同用户都在反馈同一个问题”的统计特征，又完美避开了隐私风险。