GLM-4.7-Flash实战教程：RAG增强检索+BM25+Embedding混合排序优化-平芜编程栈

GLM-4.7-Flash实战教程：RAG增强检索+BM25+Embedding混合排序优化

1. 模型概述与准备工作

1.1 GLM-4.7-Flash核心特性

GLM-4.7-Flash是智谱AI推出的新一代大语言模型，采用MoE（混合专家）架构，总参数量达300亿。相比传统模型，它具有以下显著优势：

高效推理：MoE架构仅激活部分参数，大幅提升推理速度
中文优化：针对中文场景深度优化，理解和生成能力出色
长上下文：支持4096 tokens的上下文记忆
流式输出：响应实时显示，无需等待完整生成

1.2 环境准备

确保已部署GLM-4.7-Flash镜像并启动服务：

# 检查服务状态 supervisorctl status # 预期输出应包含 # glm_vllm RUNNING # glm_ui RUNNING

访问Web界面端口7860，确认模型状态显示"模型就绪"。

2. RAG系统基础架构

2.1 RAG核心组件

RAG（检索增强生成）系统由三个关键部分组成：

检索器：从知识库中查找相关文档
排序器：对检索结果进行排序优化
生成器：基于检索内容生成最终回答

2.2 知识库构建

准备您的领域知识文档，建议格式：

documents = [ { "id": "doc1", "text": "GLM-4.7-Flash采用MoE架构...", "metadata": {"source": "官方文档"} }, # 更多文档... ]

3. 混合检索排序实现

3.1 BM25传统检索

BM25是基于词频的经典检索算法，适合精确匹配：

from rank_bm25 import BM25Okapi # 预处理文档 tokenized_docs = [doc["text"].split() for doc in documents] bm25 = BM25Okapi(tokenized_docs) # 执行查询 query = "GLM-4.7的架构特点" tokenized_query = query.split() scores = bm25.get_scores(tokenized_query)

3.2 Embedding语义检索

使用GLM-4.7-Flash生成文本嵌入：

import requests def get_embedding(text): response = requests.post( "http://127.0.0.1:8000/v1/embeddings", json={"input": text, "model": "GLM-4.7-Flash"} ) return response.json()["data"][0]["embedding"] # 预计算文档嵌入 doc_embeddings = [get_embedding(doc["text"]) for doc in documents]

3.3 混合排序策略

结合两种方法的优势：

from sklearn.preprocessing import MinMaxScaler import numpy as np def hybrid_ranking(query, alpha=0.5): # BM25分数 bm25_scores = bm25.get_scores(query.split()) # Embedding相似度 query_embedding = get_embedding(query) cosine_sims = [np.dot(query_embedding, doc_emb) / (np.linalg.norm(query_embedding) * np.linalg.norm(doc_emb)) for doc_emb in doc_embeddings] # 归一化 scaler = MinMaxScaler() bm25_normalized = scaler.fit_transform(np.array(bm25_scores).reshape(-1, 1)).flatten() sim_normalized = scaler.fit_transform(np.array(cosine_sims).reshape(-1, 1)).flatten() # 混合分数 combined_scores = alpha * bm25_normalized + (1 - alpha) * sim_normalized ranked_indices = np.argsort(combined_scores)[::-1] return [(documents[i], combined_scores[i]) for i in ranked_indices]

4. 完整RAG流程实现

4.1 检索增强生成管道

def rag_pipeline(query, top_k=3): # 混合检索 ranked_docs = hybrid_ranking(query)[:top_k] # 构建提示 context = "\n\n".join([doc["text"] for doc, _ in ranked_docs]) prompt = f"""基于以下上下文回答问题： {context} 问题：{query} 回答：""" # 调用GLM-4.7生成 response = requests.post( "http://127.0.0.1:8000/v1/chat/completions", json={ "model": "GLM-4.7-Flash", "messages": [{"role": "user", "content": prompt}], "temperature": 0.7, "max_tokens": 1024 } ) return response.json()["choices"][0]["message"]["content"]

4.2 效果优化技巧

权重调整：根据场景调整alpha参数（0-1之间）
- 精确匹配需求高：增大alpha（接近1）
- 语义理解需求高：减小alpha（接近0）
分块策略：对长文档进行适当分块（建议300-500字/块）
元数据过滤：结合文档metadata进行预过滤

# 带元数据过滤的检索 def filtered_retrieval(query, source=None): docs = documents if not source else [ doc for doc in documents if doc["metadata"]["source"] == source ] # 后续处理相同...

5. 性能优化与扩展

5.1 批量处理优化

# 批量计算嵌入 def batch_embed(texts, batch_size=32): embeddings = [] for i in range(0, len(texts), batch_size): batch = texts[i:i+batch_size] response = requests.post( "http://127.0.0.1:8000/v1/embeddings", json={"input": batch, "model": "GLM-4.7-Flash"} ) embeddings.extend([item["embedding"] for item in response.json()["data"]]) return embeddings

5.2 缓存机制

使用Redis缓存常用查询结果：

import redis r = redis.Redis(host='localhost', port=6379, db=0) def cached_rag(query, expire=3600): # 检查缓存 cached = r.get(f"rag:{query}") if cached: return cached.decode() # 未命中则执行RAG result = rag_pipeline(query) # 写入缓存 r.setex(f"rag:{query}", expire, result) return result