RAG项目实战：企业级大模型知识库搭建完整指南-平芜编程栈

本文详细解析企业级RAG知识库构建方法，涵盖PDF解析、内容提取、向量检索和智能生成等核心环节。基于冠军方案介绍多路由设计、LLM重排序、结构化输出等优化策略，并通过完整代码示例展示系统搭建过程，助力开发者快速掌握大模型知识库构建技术。

在大语言模型（LLM）普及的今天，“幻觉输出”“知识时效性不足”仍是制约其落地企业场景的核心痛点。而检索增强生成（Retrieval-Augmented Generation, RAG）技术，通过“检索外部知识+模型生成”的组合模式，成为解决上述问题的最优路径之一。尤其是在企业年报分析、投研报告解读等专业场景，高性能RAG系统能精准提取结构化信息、溯源答案来源，大幅降低决策风险。

本节内容我们将基于企业RAG挑战赛冠军方案，从技术原理、核心模块、实战优化到落地部署，全方位拆解企业级RAG知识库的搭建逻辑，补充行业通用技术细节与实操要点，助力开发者快速上手并优化自己的RAG系统。

一、RAG核心原理与企业级场景价值

1.1什么是RAG**？**

RAG技术核心是在LLM生成答案前，先从外部知识库中检索与用户查询相关的信息，将检索结果作为上下文补充给LLM，让模型基于“已知事实”生成答案。其本质是为LLM配备“外置记忆库”，既保留了模型的语言生成能力，又通过外部检索确保答案的准确性与时效性。

与传统问答系统相比，RAG具备三大优势：一是知识可动态更新，无需重新训练模型即可同步新文档；二是答案可溯源，能明确标注信息来源（如年报页码），满足企业合规要求；三是适配非结构化数据，可直接处理PDF、Word等格式的企业文档，覆盖年报、合同、投研报告等核心场景。

1.2企业RAG****挑战赛：实战场景的终极考验

企业RAG挑战赛（Enterprise RAG Challenge）是检验RAG系统实战能力的顶级赛事，其场景高度还原企业真实需求：选手需在2.5小时内解析100份总页数超10万页的企业年报PDF，构建知识库后回答100个精准问题，答案需涵盖布尔值、数值指标、实体名称等类型，且必须标注来源页码，杜绝幻觉输出。

从比赛结果来看（如下表），冠军方案（Ilia Ris）以49分钟的处理时长、123.7的高分碾压对手，其核心优势在于“多路由设计+LLM重排序+结构化输出”的组合策略，证明了系统化优化远胜于单一技术突破。

团队/方案	处理时长	R/G（检索/生成准确率）	总分
Ilia Ris（冠军）	49分钟	83/81	123.7
Emil Shagiev（亚军）	55分钟	86/78	121.6
Dmitry Buykin	8小时	81/76	117.5

注：R/G指标中，R代表检索结果的相关性准确率，G代表生成答案的格式与内容准确率，高分需兼顾速度与精度。

1.3企业级RAG****的核心价值场景

除了年报问答，RAG技术在企业中还有三大核心落地场景：

•投研分析：快速整合多份行业报告、公司财报，回答“某企业营收增长率”“行业竞争格局”等问题，提升分析师效率；

•合规审计：检索合同、政策文件中的关键条款，验证业务合规性，标注条款来源，降低审计风险；

•内部知识库：整合员工手册、技术文档、FAQ，为新员工提供精准问答服务，减少培训成本。

二、基础RAG系统流程与核心模块拆解

一个完整的RAG系统分为四大核心环节：解析（Parsing）、内容提取（Ingestion）、检索（Retrieval）、生成（Generation），各环节环环相扣，任一环节的短板都会导致系统性能下降。

2.1解析模块（Parsing）：PDF处理的“第一道门槛”

解析模块的核心任务是将非结构化的PDF文档转换为可处理的文本格式，看似简单，实则是企业级RAG的最大痛点之一。企业年报、投研报告中常包含表格、多栏文本、页眉页脚、图表等元素，普通解析器易出现格式错乱、内容丢失等问题。

2.1.1****解析模块的核心挑战

•表格结构保留：年报中的财务表格（如资产负债表）是核心信息来源，解析时需保留行列对应关系，避免数据错位；

•格式元素识别：区分标题、正文、项目符号，确保文本语义连贯性，避免将页眉页脚等冗余信息纳入正文；

•特殊内容处理：应对旋转表格、多栏文本、公式、图片等元素，尤其是旋转表格易导致解析乱码（如下表所示）。

2.1.2****解析器选择与优化

市面上的PDF解析器分为三类：传统解析器（如PyPDF2、PDFMiner）、机器学习解析器（如Docling、Unstructured）、商业API解析器（如MinerU、Adobe Extract）。冠军方案最终选择Docling，核心原因是其对复杂格式的适配性更强，且支持自定义优化。

Docling是基于Transformer架构训练的解析器，能精准识别文本、表格、标题等元素，生成包含元数据的JSON文件。但原生Docling仍有不足，需针对性优化：

1.表格格式转换：将解析后的表格JSON转换为HTML格式（LLM对HTML表格的理解度高于Markdown），保留合并单元格、子标题等复杂结构；

2.冗余内容清理：通过正则表达式过滤页眉页脚、页码、特殊符号（如“¥”“%”的乱码变体），提升文本纯度；

3.元数据补充：为每段文本添加页码、页面类型（正文/表格/标题）等元数据，为后续检索溯源奠定基础。

补充知识：MinerU作为商业解析API，支持OCR识别扫描版PDF，适合处理图文混合的老旧文档，但其API调用成本较高，适合对解析精度要求极高的企业场景。

2.2****内容提取（Ingestion）：分块与向量化的艺术

内容提取环节分为分块（Chunking）与向量化（Embedding）两步，核心目标是将解析后的文本转化为适合检索的向量形式，平衡检索精度与效率。

2.2.1分块策略：300token的“黄金尺寸”

分块是将长文本切割为短片段（Chunk）的过程，分块尺寸直接影响检索效果：

•整页分块：优点是保留上下文完整性，缺点是文本冗余度高，相关性得分被稀释；

•小尺寸分块（300token左右，约15个句子）：优点是语义聚焦，能精准匹配用户查询，缺点是可能割裂上下文关联。

冠军方案采用“300token分块+父页面溯源”策略：将每页文本分割为300token的小块，同时在每个块的元数据中记录所属页面编号。检索时先匹配小块，再通过元数据召回完整页面内容，兼顾精度与上下文完整性。

补充知识：分块重叠度（Chunk Overlap）建议设置为5-10个句子，避免因分块切割导致关键信息丢失，尤其适用于跨段落的连续语义内容。

2.2.2****向量化与向量数据库设计

向量化是将文本块转换为高维向量的过程，依赖嵌入模型（Embedding Model）捕捉语义信息。冠军方案使用text-embedding-3-large模型，其优势是支持多语言语义理解，向量维度高达3072，检索精度优于传统模型（如text-embedding-ada-002）。

向量数据库的设计需结合业务场景：对于多公司年报场景，建议按公司拆分数据库（1家公司1个Faiss库），而非合并为单一数据库。这样可将检索范围缩小N倍，避免不同公司的相似信息干扰，同时结构更清晰，便于维护。

Faiss作为Meta开源的向量数据库，其IndexFlatIP索引是冠军方案的选择，该索引采用暴力搜索方式，无压缩量化，检索精度最高，但内存消耗较大。补充知识：若数据量超过100万条，可改用IndexIVFFlat索引，通过聚类分桶提升检索速度，精度损失控制在5%以内。

2.3****检索模块（Retrieval）：从向量搜索到智能重排序

检索是RAG系统的“核心引擎”，目标是从向量数据库中快速召回与用户查询最相关的内容。冠军方案通过“向量检索+父页面溯源+LLM重排序”的三级检索策略，大幅提升检索精度。

2.3.1****基础检索：向量搜索与混合搜索的取舍

向量搜索基于语义相似度（如余弦相似度）召回结果，能捕捉用户查询的深层意图，但对关键词匹配的敏感度不足。混合搜索（向量搜索+BM25关键词搜索）理论上可互补，但基础实现中常因权重设计不当导致精度下降。

补充知识：BM25是传统信息检索中的关键词匹配算法，通过词频、文档长度等因素计算相关性，适合精准关键词查询（如“2024年营收”）。若需使用混合搜索，建议采用“向量搜索召回Top50+BM25过滤+重排序”策略，而非直接合并结果。

2.3.2****父页面检索：弥补小分块的上下文缺失

小分块虽能提升检索精度，但可能丢失页面级别的上下文信息。父页面检索策略通过以下步骤补充上下文：

1.通过向量搜索召回Top30个相关文本块；

2.根据元数据提取对应页面，去重后得到Top30个页面；

3.将完整页面内容作为上下文输入LLM，确保答案的完整性。

2.3.3 LLM重排序：提升相关性的“最后一公里”

向量搜索的相似度得分仅基于文本表层语义，可能存在“伪相关”结果（如关键词匹配但语义无关）。LLM重排序通过让模型对“查询-页面”对进行相关性评分，修正检索结果顺序。

冠军方案的LLM重排序实现逻辑：

•构建重排序提示词，要求模型输出0-1分的相关性得分（步长0.1）及推理过程；

•采用加权平均计算最终得分：向量相似度权重0.3，LLM评分权重0.7（突出语义理解优先级）；

•召回Top10个高分页面，作为生成环节的上下文。

补充知识：除了LLM重排序，Jina Reranker、bge-reranker-v2-m3等专用重排序模型也是主流选择。Jina Reranker v2参数量仅278M，推理速度比LLM快15倍，适合对实时性要求高的场景。

2.4****生成模块（Generation）：结构化输出与智能路由

生成环节是RAG系统的“终端输出口”，核心目标是让LLM基于检索上下文，生成格式规范、内容准确的答案。冠军方案通过“三路由设计+思维链+结构化输出”，实现高精度生成。

2.4.1****三大路由策略：提升生成效率与精度

路由策略的核心是“将合适的查询分配给合适的处理模块”，避免资源浪费，提升响应速度：

1.数据库路由：提取查询中的企业名称，直接定位对应向量数据库，缩小检索范围（如查询“苹果营收”仅检索苹果公司数据库）；

2.提示词路由：根据查询类型（布尔值/数值/实体/开放文本），调用对应提示词模板（如数值类查询调用NumberPrompt，确保单位统一、格式规范）；

3.复合查询路由：将多公司比较类查询（如“苹果与微软谁的营收更高”）拆解为单个子查询，分别检索后再综合判断。

2.4.2****思维链（CoT）与结构化输出（SO）融合

单一的生成指令易导致LLM“虚假推理”（先给答案再倒推理由），冠军方案采用“思维链+结构化输出”融合策略，强制模型规范推理过程：

•思维链（CoT）：要求模型分步推理，至少5个步骤，150字以上，明确每一步的分析逻辑（如“1. 问题要求提取研发设备成本；2. 上下文第35页为不动产净额，已扣除折旧，不符合要求……”）；

•结构化输出（SO）：通过Pydantic定义JSON格式，包含step_by_step_analysis（分步推理）、reasoning_summary（推理摘要）、relevant_pages（来源页码）、final_answer（最终答案）四个字段，确保输出可直接解析。

补充知识：Pydantic是Python中常用的数据验证库，通过BaseModel定义字段类型与描述，可强制LLM输出指定格式，避免答案混乱，大幅降低后续解析成本。

三、实战优化：从实验室到企业落地的关键调整

实验室中的RAG系统往往追求精度上限，而企业落地需兼顾精度、速度、成本三大因素，以下是核心优化要点。

3.1****指令细化（Instruction Refinement）：应对边缘场景

企业场景中，用户查询常存在歧义与边缘情况，需通过指令细化明确模型行为：

•歧义处理：定义职位名称映射（如“MD”“总裁”视为“CEO”的同类职位）、指标含义映射（如“销售收入”等同于“主营业务收入”）；

•无答案处理：明确“未找到相关信息”与“信息不存在”的输出规则（如问“股息政策变更”，年报未提及则输出“N/A”，明确说明无相关信息）；

•格式规范：统一数值单位（如百分比保留1位小数）、实体名称格式（如公司名与问题完全一致，人名保留全名）。

指令细化的工作量不亚于数据准备，需通过大量边缘案例测试，逐步完善规则库。

3.2****系统调参：用验证集量化优化效果

搭建验证集（如100个标注好答案与来源的问题）是RAG调参的核心前提，通过对比不同参数组合的准确率，找到最优配置。关键可调参数如下：

参数类别	关键参数	优化建议
分块参数	chunk_size、chunk_overlap	文本类文档用300-500token，表格类用1000token以上
检索参数	top_n_retrieval、重排序权重	top_n设为30，向量权重0.3+LLM权重0.7
生成参数	模型类型、推理温度	企业场景温度设为0.1-0.3，降低随机性

冠军方案的意外发现：表格序列化（将表格转换为属性-值对）虽理论上提升语义连贯性，但实际测试中反而降低检索精度，因过度拆分破坏了表格结构的完整性，证明“并非所有优化策略都适用于实战”。

3.3****成本控制：平衡性能与开销

企业落地RAG需重点控制推理成本，核心优化手段：

•模型选型：用轻量模型替代大模型，如用GPT-4o-mini、通义千问-turbo替代GPT-4，推理成本降低80%以上，精度损失控制在10%以内；

•检索过滤：先通过向量搜索过滤无关内容，再将Top10页面输入LLM，避免全文档输入导致的高成本（1000页文档直接输入LLM单次成本约25美分）；

•并行推理：多查询场景下开启并行请求，控制并发数（如通义千问建议并发数≤5），提升处理速度的同时避免API限流。

四、实战落地：搭建企业级RAG知识库（附代码要点）

基于冠军方案，我们以“中芯国际投研报告知识库”为例，拆解落地步骤，适配中文场景与企业需求。

4.1****环境准备与依赖库

核心依赖库：

python # 解析库 pip install docling mineru-api # 向量数据库与嵌入模型 pip install faiss-cpu sentence-transformers dashscope # 核心框架与工具 pip install streamlit pydantic python-dotenv

注：DashScope为阿里云通义千问API库，需替换为自己的API_KEY；MinerU用于扫描版PDF解析，需申请商业API。

4.2****核心步骤实现要点

步骤1：PDF解析（MinerU替代Docling，适配中文场景）

MinerU API解析代码核心逻辑（处理中文年报与投研报告）：


python import requests import time import zipfile api_key = “你的MinerU API_KEY” def get_task_id(file_name): url = “https://mineru.net/api/v4/extract/task” headers = { “Content-Type”: “application/json”, “Authorization”: f"Bearer {api_key}" } # 上传PDF文件（支持OSS或本地文件） data = { “url”: f"https://你的OSS地址/pdf/{file_name}“, “is_ocr”: True, # 开启OCR，处理扫描版PDF “enable_formula”: False } res = requests.post(url, headers=headers, json=data) return res.json()[“data”][“task_id”] # 轮询获取解析结果并解压 def get_parse_result(task_id): url = f"https://mineru.net/api/v4/extract/task/{task_id}” while True: res = requests.get(url, headers={“Authorization”: f"Bearer {api_key}“}) result = res.json()[“data”] if result[“state”] == “done”: # 下载并解压结果（含JSON与HTML表格） zip_url = result[“full_zip_url”] res_zip = requests.get(zip_url, stream=True) with open(f”{task_id}.zip", “wb”) as f: for chunk in res_zip.iter_content(chunk_size=8192): f.write(chunk) with zipfile.ZipFile(f"{task_id}.zip", “r”) as zip_ref: zip_ref.extractall(“parsed_reports”) return “解析完成” elif result[“state”] == “failed”: return f"解析失败：{result[‘err_msg’]}" time.sleep(3) # 每3秒轮询一次

python import requests import time import zipfile api_key = “你的MinerU API_KEY” def get_task_id(file_name): url = “https://mineru.net/api/v4/extract/task” headers = { “Content-Type”: “application/json”, “Authorization”: f"Bearer {api_key}" } # 上传PDF文件（支持OSS或本地文件） data = { “url”: f"https://你的OSS地址/pdf/{file_name}“, “is_ocr”: True, # 开启OCR，处理扫描版PDF “enable_formula”: False } res = requests.post(url, headers=headers, json=data) return res.json()[“data”][“task_id”] # 轮询获取解析结果并解压 def get_parse_result(task_id): url = f"https://mineru.net/api/v4/extract/task/{task_id}” while True: res = requests.get(url, headers={“Authorization”: f"Bearer {api_key}“}) result = res.json()[“data”] if result[“state”] == “done”: # 下载并解压结果（含JSON与HTML表格） zip_url = result[“full_zip_url”] res_zip = requests.get(zip_url, stream=True) with open(f”{task_id}.zip", “wb”) as f: for chunk in res_zip.iter_content(chunk_size=8192): f.write(chunk) with zipfile.ZipFile(f"{task_id}.zip", “r”) as zip_ref: zip_ref.extractall(“parsed_reports”) return “解析完成” elif result[“state”] == “failed”: return f"解析失败：{result[‘err_msg’]}" time.sleep(3) # 每3秒轮询一次

步骤2：文本分块与向量化（适配中文Markdown）

改写text_splitter.py，支持中文Markdown分块，保留页码元数据：


python from pathlib import Path import json def split_markdown_file(md_path: Path, chunk_size: int = 30, chunk_overlap: int = 5) -> list: “”“按行分块中文Markdown文件，保留起止行号与页码”“” with open(md_path, “r”, encoding=“utf-8”) as f: lines = f.readlines() chunks = [] total_lines = len(lines) start = 0 # 提取页码（假设Markdown首行含页码信息） page_num = md_path.stem.split(“_”)[-1] # 文件名格式：报告名_页码.md while start < total_lines: end = min(start + chunk_size, total_lines) # 重叠分块，调整起始位置 chunk_text = “”.join(lines[start:end]) chunks.append({ “page”: int(page_num), “lines”: [start+1, end], # 行号从1开始 “text”: chunk_text.strip(), “id”: f"{md_path.stem}_{start}" }) start = end - chunk_overlap return chunks # 批量分块并保存 def split_all_markdowns(md_dir: Path, output_dir: Path): output_dir.mkdir(exist_ok=True) for md_file in md_dir.glob(“*.md”): chunks = split_markdown_file(md_file) with open(output_dir / f"{md_file.stem}_chunked.json", “w”, encoding=“utf-8”) as f: json.dump({“metainfo”: {“company_name”: “中芯国际”}, “content”: {“chunks”: chunks}}, f, ensure_ascii=False)

python from pathlib import Path import json def split_markdown_file(md_path: Path, chunk_size: int = 30, chunk_overlap: int = 5) -> list: “”“按行分块中文Markdown文件，保留起止行号与页码”“” with open(md_path, “r”, encoding=“utf-8”) as f: lines = f.readlines() chunks = [] total_lines = len(lines) start = 0 # 提取页码（假设Markdown首行含页码信息） page_num = md_path.stem.split(“_”)[-1] # 文件名格式：报告名_页码.md while start < total_lines: end = min(start + chunk_size, total_lines) # 重叠分块，调整起始位置 chunk_text = “”.join(lines[start:end]) chunks.append({ “page”: int(page_num), “lines”: [start+1, end], # 行号从1开始 “text”: chunk_text.strip(), “id”: f"{md_path.stem}_{start}" }) start = end - chunk_overlap return chunks # 批量分块并保存 def split_all_markdowns(md_dir: Path, output_dir: Path): output_dir.mkdir(exist_ok=True) for md_file in md_dir.glob(“*.md”): chunks = split_markdown_file(md_file) with open(output_dir / f"{md_file.stem}_chunked.json", “w”, encoding=“utf-8”) as f: json.dump({“metainfo”: {“company_name”: “中芯国际”}, “content”: {“chunks”: chunks}}, f, ensure_ascii=False)

**步骤3：向量数据库构建（****Faiss+**通义千问嵌入模型）


python import faiss import numpy as np from dashscope import Embeddings from dotenv import load_dotenv import os load_dotenv() dashscope_api_key = os.getenv(“DASHSCOPE_API_KEY”) # 初始化嵌入模型（text-embedding-v1） def get_embedding(text: str) -> list: resp = Embeddings.call( Embeddings.Models.text_embedding_v1, input=text ) return resp.output[“embeddings”][0][“embedding”] # 构建单公司向量库 def build_faiss_index(chunked_json_path: Path): with open(chunked_json_path, “r”, encoding=“utf-8”) as f: data = json.load(f) chunks = data[“content”][“chunks”] # 生成向量与元数据 embeddings = [] metadatas = [] for chunk in chunks: emb = get_embedding(chunk[“text”]) embeddings.append(emb) metadatas.append({“page”: chunk[“page”], “id”: chunk[“id”]}) # 构建Faiss索引（IndexFlatIP） dimension = len(embeddings[0]) index = faiss.IndexFlatIP(dimension) index.add(np.array(embeddings).astype(“float32”)) # 保存索引与元数据 faiss.write_index(index, “zhongxin_faiss.index”) with open(“zhongxin_metadata.json”, “w”, encoding=“utf-8”) as f: json.dump(metadatas, f, ensure_ascii=False) return index, metadatas

python import faiss import numpy as np from dashscope import Embeddings from dotenv import load_dotenv import os load_dotenv() dashscope_api_key = os.getenv(“DASHSCOPE_API_KEY”) # 初始化嵌入模型（text-embedding-v1） def get_embedding(text: str) -> list: resp = Embeddings.call( Embeddings.Models.text_embedding_v1, input=text ) return resp.output[“embeddings”][0][“embedding”] # 构建单公司向量库 def build_faiss_index(chunked_json_path: Path): with open(chunked_json_path, “r”, encoding=“utf-8”) as f: data = json.load(f) chunks = data[“content”][“chunks”] # 生成向量与元数据 embeddings = [] metadatas = [] for chunk in chunks: emb = get_embedding(chunk[“text”]) embeddings.append(emb) metadatas.append({“page”: chunk[“page”], “id”: chunk[“id”]}) # 构建Faiss索引（IndexFlatIP） dimension = len(embeddings[0]) index = faiss.IndexFlatIP(dimension) index.add(np.array(embeddings).astype(“float32”)) # 保存索引与元数据 faiss.write_index(index, “zhongxin_faiss.index”) with open(“zhongxin_metadata.json”, “w”, encoding=“utf-8”) as f: json.dump(metadatas, f, ensure_ascii=False) return index, metadatas

步骤4：Streamlit前端搭建（支持中文查询与结构化输出）

核心代码（实现单问题查询、结果展示）：


python import streamlit as st from src.pipeline import Pipeline from pathlib import Path # 初始化页面 st.set_page_config(page_title=“中芯国际RAG知识库”, page_icon=“📊”) st.markdown(“”" 中芯国际投研RAG知识库向量检索+LLM推理｜精准解读投研报告 “”“, unsafe_allow_html=True) # 初始化Pipeline @st.cache_resource def init_pipeline(): root_path = Path(“data/stock_data”) return Pipeline(root_path=root_path, config={“api_provider”: “dashscope”, “answering_model”: “qwen-turbo-latest”}) pipeline = init_pipeline() # 左侧查询输入 with st.sidebar: st.subheader(“查询设置”) user_question = st.text_input(“请输入问题（如：中芯国际2024年营收情况）”) generate_btn = st.button(“生成答案”) # 右侧结果展示 if generate_btn and user_question: with st.spinner(“检索中…”): # 调用单问题回答方法（需在Pipeline中实现） result = pipeline.answer_single_question(question=user_question, kind=“string”) st.subheader(“检索结果”) st.write(”### 分步推理") st.write(result[“step_by_step_analysis”]) st.write(“### 推理摘要”) st.write(result[“reasoning_summary”]) st.write(“### 相关页面”) st.write(f"页码：{result[‘relevant_pages’]}“) st.write(”### 最终答案") st.success(result[“final_answer”]) else: st.info(“请在左侧输入问题并点击【生成答案】”)

python import streamlit as st from src.pipeline import Pipeline from pathlib import Path # 初始化页面 st.set_page_config(page_title=“中芯国际RAG知识库”, page_icon=“📊”) st.markdown(“”"

中芯国际投研RAG知识库

向量检索+LLM推理｜精准解读投研报告

“”“, unsafe_allow_html=True) # 初始化Pipeline @st.cache_resource def init_pipeline(): root_path = Path(“data/stock_data”) return Pipeline(root_path=root_path, config={“api_provider”: “dashscope”, “answering_model”: “qwen-turbo-latest”}) pipeline = init_pipeline() # 左侧查询输入 with st.sidebar: st.subheader(“查询设置”) user_question = st.text_input(“请输入问题（如：中芯国际2024年营收情况）”) generate_btn = st.button(“生成答案”) # 右侧结果展示 if generate_btn and user_question: with st.spinner(“检索中…”): # 调用单问题回答方法（需在Pipeline中实现） result = pipeline.answer_single_question(question=user_question, kind=“string”) st.subheader(“检索结果”) st.write(”### 分步推理") st.write(result[“step_by_step_analysis”]) st.write(“### 推理摘要”) st.write(result[“reasoning_summary”]) st.write(“### 相关页面”) st.write(f"页码：{result[‘relevant_pages’]}“) st.write(”### 最终答案") st.success(result[“final_answer”]) else: st.info(“请在左侧输入问题并点击【生成答案】”)

4.3关键补充：新增string****类型提示词（支持开放文本问答）

在prompts.py中添加AnswerWithRAGContextStringPrompt，适配中文开放问题：


python from pydantic import BaseModel, Field from typing import List, Union class AnswerWithRAGContextStringPrompt: instruction = “你是一个RAG问答专家，仅基于检索到的中芯国际投研报告内容回答问题，严格遵循上下文，不捏造信息。” user_prompt = “”" 以下是上下文： “”" {context} “”" 以下是问题： “{question}” “”" class AnswerSchema(BaseModel): step_by_step_analysis: str = Field(description=“详细分步推理过程，至少5步，150字以上，结合上下文逐步分析归纳，使用中文。”) reasoning_summary: str = Field(description=“简要总结推理过程，约50字，中文表述。”) relevant_pages: List[int] = Field(description=“仅包含直接用于回答问题的页面编号，至少一个，去重。”) final_answer: str = Field(description=“最终答案为一段完整连贯的中文文本，基于上下文作答，无信息则说明未找到。”) # 示例（少样本学习） example = r"“” 问题：请简要总结中芯国际2024年主营业务的主要内容。答案： { “step_by_step_analysis”: “1. 问题要求总结中芯国际2024年主营业务内容。2. 投研报告第10页提到公司核心业务为晶圆制造，涵盖逻辑芯片、电源管理芯片等。3. 第12页指出晶圆代工服务是主要收入来源，占比超90%。4. 第15页提到公司同时提供技术服务与咨询业务，作为补充。5. 综合各页面信息，归纳主营业务范围。”, “reasoning_summary”: “报告10、12、15页明确主营业务，核心为晶圆代工，辅以技术服务。”, “relevant_pages”: [10, 12, 15], “final_answer”: “中芯国际2024年主营业务以晶圆制造代工服务为核心，涵盖逻辑芯片、电源管理芯片等产品的代工，同时提供技术服务与咨询业务，晶圆代工收入占比超90%。” } “”"

python from pydantic import BaseModel, Field from typing import List, Union class AnswerWithRAGContextStringPrompt: instruction = “你是一个RAG问答专家，仅基于检索到的中芯国际投研报告内容回答问题，严格遵循上下文，不捏造信息。” user_prompt = “”" 以下是上下文： “”" {context} “”" 以下是问题： “{question}” “”" class AnswerSchema(BaseModel): step_by_step_analysis: str = Field(description=“详细分步推理过程，至少5步，150字以上，结合上下文逐步分析归纳，使用中文。”) reasoning_summary: str = Field(description=“简要总结推理过程，约50字，中文表述。”) relevant_pages: List[int] = Field(description=“仅包含直接用于回答问题的页面编号，至少一个，去重。”) final_answer: str = Field(description=“最终答案为一段完整连贯的中文文本，基于上下文作答，无信息则说明未找到。”) # 示例（少样本学习） example = r"“” 问题：请简要总结中芯国际2024年主营业务的主要内容。答案： { “step_by_step_analysis”: “1. 问题要求总结中芯国际2024年主营业务内容。2. 投研报告第10页提到公司核心业务为晶圆制造，涵盖逻辑芯片、电源管理芯片等。3. 第12页指出晶圆代工服务是主要收入来源，占比超90%。4. 第15页提到公司同时提供技术服务与咨询业务，作为补充。5. 综合各页面信息，归纳主营业务范围。”, “reasoning_summary”: “报告10、12、15页明确主营业务，核心为晶圆代工，辅以技术服务。”, “relevant_pages”: [10, 12, 15], “final_answer”: “中芯国际2024年主营业务以晶圆制造代工服务为核心，涵盖逻辑芯片、电源管理芯片等产品的代工，同时提供技术服务与咨询业务，晶圆代工收入占比超90%。” } “”"

五、总结：企业级RAG的核心认知

冠军方案的成功并非依赖单一技术突破，而是验证了“系统化优化”的核心逻辑——RAG的性能上限由最短板模块决定，需在解析、检索、生成各环节精准微调，同时结合业务场景平衡精度、速度与成本。

对于企业落地而言，以下三点认知至关重要：

•无万能方案：表格序列化、混合搜索等理论优策略，需结合实际场景测试，避免盲目套用；

•细节定成败：指令细化、元数据补充、分块尺寸等细节，对最终精度的影响远超模型选型；

•成本可控性：轻量模型+合理检索过滤，能在精度损失可接受范围内，将落地成本降低一个量级。

随着LLM与嵌入模型的迭代，RAG技术将进一步降低落地门槛，成为企业处理非结构化数据、实现智能问答的核心基础设施。掌握其核心逻辑与优化方法，能让开发者在AI落地浪潮中占据先机。

最后

我在一线科技企业深耕十二载，见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**