对话式文档提示工程：让大模型精准阅读PDF/Word-平芜编程栈

1. 项目概述：让大模型真正“读懂”你的PDF和Word，而不是瞎猜

你有没有试过把一份30页的合同PDF拖进ChatGPT对话框，然后问：“甲方违约责任条款在哪一页？”——结果它自信地告诉你“在第12页”，而你翻到第12页只看到一段关于保密义务的描述？或者把公司内部的《2024版销售流程SOP》丢进去，问“客户投诉升级到总监的触发条件是什么？”，它却开始编造一条根本不存在的流程？这不是模型太蠢，而是你没给它“读文档”的正确姿势。Dialogue Prompting Over Documents（基于文档的对话式提示工程）这个标题，说的正是解决这个问题的核心方法论：它不是简单地把文档“塞”给模型，而是构建一套人与模型围绕文档持续交互、逐步聚焦、动态修正的认知闭环。我过去三年带团队落地了17个企业级文档智能应用，从法律尽调辅助到医疗报告解读，踩过最多坑的地方，就是早期迷信“一粘就灵”的文档上传模式。后来发现，真正稳定可用的系统，90%的功夫花在提示设计上，而不是模型选型上。这个项目本质上是一套可复用的“文档阅读协议”——它规定了人怎么提问、模型怎么反馈、反馈后人如何追问、模型如何回溯上下文，最终让一次对话变成一场有逻辑、有依据、可验证的协同阅读。它适合三类人：需要快速消化大量专业文档的业务人员（比如法务、HR、采购）、想把内部知识库真正用起来的产品经理、以及正在搭建RAG（检索增强生成）系统的工程师。如果你还停留在“把文档扔进去等答案”的阶段，这篇内容会帮你建立一套更底层、更可控、更贴近真实工作流的文档交互思维。

2. 核心思路拆解：为什么“对话式提示”比“单次上传”强一个数量级

2.1 传统文档处理的三大死穴，对话式提示如何精准爆破

很多团队一开始做文档智能，第一反应是“用RAG”。听起来很高级，但实际落地时，80%的失败都源于对底层问题的误判。我们来拆解三个最典型的死穴，再看对话式提示如何逐个击破：

死穴一：语义鸿沟导致的“幻觉放大器”
当你把整份《医疗器械注册管理办法》PDF直接喂给模型，它看到的不是“法规条文”，而是一堆被OCR识别错误的乱码、表格错位后的碎片化文本、以及大量无意义的页眉页脚。模型被迫在噪声中强行归纳，结果就是把“第三类医疗器械”和“第二类”混淆，或者把“注册检验”曲解为“出厂检验”。这本质上不是模型能力问题，而是输入信息质量崩塌后的必然结果。对话式提示的第一步，就是强制“切片-定位-聚焦”。比如，你先问：“这份文件中关于‘临床评价’的定义出现在哪一章？请只返回章节标题和页码。”模型必须先完成精准定位，才能进入后续解读。这相当于给模型装了一个“文档导航仪”，让它永远知道自己站在哪一页、哪一段。

死穴二：上下文窗口的物理限制与认知断层
ChatGPT API的上下文窗口再大（比如32K），也扛不住一份200页的工程标书。更致命的是，即使你分段上传，模型也无法像人类一样记住“第5页提到的‘不可抗力’定义，在第47页的违约条款里被反复引用”。传统方案要么粗暴截断，要么依赖外部向量库做模糊检索，结果就是关键逻辑链断裂。对话式提示的解法是“状态机驱动”。每一次用户提问，都携带前序对话的摘要（比如：“上一轮确认了第12页的付款条件，现在聚焦第15页的验收标准”），模型的响应不仅回答当前问题，还要主动声明“本回答依据第15页第3段原文”，并附上原文片段。这相当于在每次交互中，人为构建一个轻量级的、可审计的“认知快照”。

死穴三：需求模糊导致的“答案漂移”
业务人员的真实需求从来不是“找某句话”，而是“判断这个条款对我们当前项目的风险等级”。但直接问“风险等级如何？”，模型只能凭空编造。对话式提示强制引入“需求澄清环节”。比如，当用户问“供应商延迟交付的后果？”，系统不直接回答，而是反问：“请问您关注的是违约金计算方式（A），还是合同自动终止条件（B），或是我方单方解约权（C）？”这个看似多此一举的步骤，实则是把模糊的业务意图，翻译成模型可执行的结构化指令。我们在某汽车零部件厂落地时，光是这个澄清环节，就把法务部的提问准确率从41%提升到89%。

提示：对话式提示不是“让模型更聪明”，而是“让人和模型的协作更像两个专业人士在开会”。每一次提问、每一次澄清、每一次原文引用，都是在加固这个协作契约。

2.2 对话式提示的三层架构：从原子操作到完整工作流

我把整个对话式提示体系拆解为三个嵌套层级，每一层都对应一个明确的技术目标和实现手段：

第一层：原子操作层（Atomic Operations）—— 定义最小、最可靠的交互单元
这是整个体系的地基。每个原子操作必须满足三个硬性指标：可验证、可复现、可审计。例如：

定位操作（Locate）：请在文档中搜索关键词“不可抗力”，返回所有出现位置的精确页码和段落编号（如P23-Para4）。不解释，只列清单。
为什么有效？强制模型放弃概括，只做机械匹配；页码+段落编号提供了可人工核验的锚点。
摘录操作（Extract）：请严格按原文摘录第47页第2段全部内容，包括标点符号和换行。不得增删、改写、总结。
为什么有效？切断模型“自由发挥”的路径，确保后续分析基于原始事实。
对比操作（Compare）：请逐字对比第12页第1段与第35页第4段，列出所有文字差异（包括标点、空格、大小写）。
为什么有效？将主观判断转化为客观差异统计，避免模型用“意思相近”搪塞。

第二层：会话管理层（Conversation Management）—— 让多次交互形成连贯认知
原子操作只是零件，会话管理才是组装流水线。核心是设计一套轻量级的“对话状态跟踪”机制。我们不用复杂的状态机框架，而是用三行元数据控制：

[CONTEXT] 上一轮确认：第8页定义了“交付物清单”格式；当前聚焦：第15页验收标准条款。 [SOURCE] 依据原文：P15-Para2, P15-Para3, P15-Para5（已校验OCR准确性） [GOAL] 输出：验收不通过的3种具体情形，每种情形需标注对应原文位置。

这三行代码（实际是提示词的一部分）让模型始终清楚“我们在哪、依据什么、要去哪”。在某券商的IPO招股书分析项目中，这套机制让12轮对话的上下文一致性达到100%，而纯靠模型记忆的方案，到第5轮就开始混淆不同章节的定义。

第三层：工作流编排层（Workflow Orchestration）—— 匹配真实业务场景的决策树
这才是对话式提示的终极价值。它把原子操作和会话管理，编排成解决具体问题的“决策流水线”。比如处理一份采购合同，标准工作流是：

结构解析：请识别本文档的章节结构，生成带页码的目录树（仅一级和二级标题）→ 获取导航地图
关键条款定位：根据目录树，定位“付款条件”、“违约责任”、“争议解决”三章的起始页码→ 锁定作战区域
条款对比：请对比“违约责任”章中，甲方违约与乙方违约的赔偿计算方式（分别摘录原文）→ 发现不对称风险
风险摘要：基于以上摘录，用不超过100字总结对我方（乙方）最不利的3个条款，并标注原文位置→ 生成决策依据

这个工作流不是固定死的，而是可以根据用户角色动态调整。给法务看，第4步输出详细法律依据；给采购经理看，第4步自动转换成“预计增加成本XX万元”的商业语言。这种灵活性，是单次上传或简单RAG永远做不到的。

3. 核心细节解析：提示词设计、文档预处理与API调用的黄金组合

3.1 提示词设计的四大铁律：让模型“听话”的底层逻辑

很多人以为提示词就是“多写几句话”，其实它是一门精密的工程学。我在调试某跨国药企的临床试验方案（CTP）解读系统时，曾为一个“药物剂量调整规则”的提示词迭代了67版。最终沉淀出四条无法妥协的铁律：

铁律一：指令动词必须唯一且不可替代
错误示范：请分析一下药物剂量调整的相关内容...
问题在哪？“分析”是模糊动词，模型可以总结、可以举例、可以编造。正确写法：请严格按以下三步执行：① 定位所有提及“剂量调整”的段落，返回页码和段落编号；② 对每个段落，摘录包含“剂量调整”关键词的完整句子（前后各延伸1句）；③ 将所有摘录句子合并为一个列表，按页码升序排列。
为什么？每个动词（定位/摘录/合并）都对应一个可验证的操作结果。模型没有“发挥空间”，只有“执行路径”。

铁律二：约束条件必须前置且量化
错误示范：请解释临床终点的选择依据...
正确写法：请从第32页“主要临床终点”小节中，提取3个选择该终点的理由。每个理由必须：① 直接引用原文（含页码）；② 长度不超过25字；③ 不得出现“因为”、“因此”等推导性连接词。
为什么？“3个”、“25字”、“不得出现”都是硬性边界，把模型的自由度压缩到最小。我们在处理FDA指南时发现，加入“不得出现推导性连接词”这一条，让模型编造因果关系的概率从34%降到0%。

铁律三：错误防御必须内置，而非事后校验
不要指望模型“自觉”不犯错。要在提示词里预设它的错误模式，并强制它自我检查。例如：
请执行以下操作：① 定位“严重不良事件（SAE）”定义（第18页）；② 摘录定义原文；③ 自查：摘录内容是否包含“unexpected”、“serious”、“adverse”三个英文单词？若不全包含，请重新执行②。
为什么？这相当于给模型加了一道“出厂质检”。在医疗文档中，“unexpected”常被OCR识别为“unexpeeted”，模型自查能立刻暴露这个问题，而不是把错误传递给下游。

铁律四：输出格式必须机器可解析，而非人类可读
错误示范：请用清晰的语言说明...
正确写法：请以JSON格式输出，包含以下字段：{"page": "整数页码", "paragraph": "段落编号（如P3-Para2）", "quote": "严格原文摘录", "confidence": "0.0-1.0置信度（基于原文明确性）"}
为什么？人类可读的格式（如“第18页第2段写道：……”）需要额外的NLP解析才能入库。而JSON格式，前端拿到就能直接渲染、后端拿到就能直接存库。我们在某电子病历项目中，用JSON输出将前端解析耗时从1200ms降到23ms。

注意：这四条铁律不是理论，而是血泪教训。某次给客户演示时，因提示词漏了“不得出现推导性连接词”，模型把“该终点已被广泛接受”曲解为“该终点被证明有效”，差点引发合规事故。从此，每条提示词上线前，必过这四关。

3.2 文档预处理：别让垃圾输入毁掉精密提示

再完美的提示词，遇上糟糕的文档输入，也是白搭。我见过太多团队把90%精力花在提示词上，却在文档预处理上用“一键PDF转TXT”草草了事。结果就是模型在和OCR噪声搏斗，而不是在理解业务逻辑。以下是经过17个项目验证的预处理黄金流程：

第一步：格式清洗（Format Sanitization）—— 剥离干扰，保留骨架
PDF转文本最大的敌人是“视觉残留”。比如表格被转成|列1|列2|，页眉页脚变成[CONFIDENTIAL] 第3页，图表标题混在正文里。我们的清洗脚本（Python + pdfplumber）会：

移除所有页眉页脚（基于页码位置和重复模式识别）
将表格转换为语义化描述（如“表3：2023年各季度销售额（单位：万元），含4行5列”）
标注所有图表位置（[FIGURE: P27 图4-2 电路拓扑图]）

第二步：语义分块（Semantic Chunking）—— 不是按字数切，而是按逻辑切
传统RAG按512字符切块，会导致“定义”和“举例”被切到不同块。我们的分块策略是三级优先级：

最高优：章节边界（## 3.2 风险评估方法）
次优：段落完整性（一个完整条款，哪怕2000字也不切）
兜底：字符长度（单块不超过1200字符，避免API超限）

第三步：关键元数据注入（Metadata Enrichment）—— 给每一块打上“身份证”
每一块文本都必须携带可追溯的元数据：

{ "chunk_id": "CTP-2024-001-P12-Para3", "source_doc": "CTP_V3.2_20240515.pdf", "page_range": [12, 12], "section": "3.2 风险评估方法", "semantic_type": "definition" }

为什么重要？当模型在响应中说“依据第12页第3段”，你可以瞬间定位到CTP-2024-001-P12-Para3这个ID，而不是在PDF里大海捞针。在某医疗器械注册项目中，这个ID系统让法务审核效率提升了4倍。

第四步：OCR质量校验（OCR Quality Gate）—— 拒绝低质输入
不是所有PDF都需要OCR。我们的校验规则：

若PDF含原生文本层，且pdfplumber提取的文本密度 > 85%（即每页平均字符数/页面面积 > 阈值），则跳过OCR；
若需OCR，则用Tesseract 5.3 + 中文专用模型，对每页进行置信度评分；
置信度 < 92% 的页面，自动标记为[LOW_CONFIDENCE_PAGE]，并在提示词中强制要求模型：“若引用标记为LOW_CONFIDENCE_PAGE的内容，请在响应开头声明‘本段引用可能存在OCR误差’”。

3.3 ChatGPT API调用的关键参数与避坑指南

API调用不是“填个key就完事”。参数选错，再好的提示词也白搭。以下是生产环境验证过的参数配置：

temperature = 0.1
不是0，也不是0.3。0.1是精度与鲁棒性的最佳平衡点。temperature=0时，模型过于死板，遇到边缘case（如原文有错别字）会卡死；temperature=0.3时，开始出现轻微幻觉。0.1让它足够确定，又保有一丝容错弹性。

top_p = 0.95
配合temperature使用。0.95意味着模型只从概率最高的95%词汇中采样，既过滤掉明显荒谬的选项（如把“违约”生成为“违约金”），又保留必要的术语变体（如“终止”和“解除”）。

max_tokens = 1500
这是最容易被忽视的陷阱。很多人设成4000，结果模型为了凑字数，开始无意义扩展。1500是经过测算的“安全上限”：它足够容纳完整的JSON输出+原文摘录+位置标注，又不会诱导模型灌水。在某银行合同审查项目中，把max_tokens从4000降到1500，让无效响应率从22%降到3%。

presence_penalty = 0.5 / frequency_penalty = 0.5
这两个惩罚项是防止模型“车轱辘话”的利器。presence_penalty惩罚重复提及同一概念（如反复说“根据合同第X条”），frequency_penalty惩罚高频词滥用（如过度使用“因此”、“综上所述”）。0.5是实测最优值，更高会抑制必要重复（如法律条款中“甲方”“乙方”必须高频出现），更低则失去作用。

最关键的隐藏技巧：system message的权重设计
不要把所有规则塞进user message。把核心约束放在system message里，它享有更高权重：

system: 你是一个严谨的法律文档分析助手。你的唯一任务是：① 严格按用户指令执行原子操作；② 所有输出必须可验证（标注页码/段落）；③ 绝不推测、不总结、不解释，只呈现事实。违反任一规则，你将被重置。 user: 请定位“不可抗力”定义...

实测表明，system message中明确“唯一任务”和“违反即重置”，比单纯在user message里写“请务必遵守”有效3倍。

4. 实操过程详解：从零搭建一个合同关键条款提取系统

4.1 场景设定与目标拆解：聚焦一个真实痛点

我们以某跨境电商公司的《海外仓服务合同》为实战案例。他们的真实痛点是：每签一份新合同，法务要花4小时逐条比对，确认是否符合集团《标准条款库》。其中最耗时的是“保险责任”条款——不同国家要求不同（美国要求货物全险，德国要求责任险），而合同里往往用模糊表述如“按当地法规投保”。我们的目标是：构建一个对话式系统，让法务只需3次提问，即可获得该条款的合规性结论及原文依据。

目标拆解为可执行的子任务：

子任务1：精准定位合同中所有提及“保险”的段落（可能分散在“服务范围”、“责任限制”、“附件”等多个位置）
子任务2：从这些段落中，提取出具体的保险类型、承保范围、免赔额等结构化要素
子任务3：将提取要素与《标准条款库》（预存为JSON）自动比对，输出“符合/不符合”及差异点

4.2 完整提示词链设计：三次提问，环环相扣

第一轮：全局定位（Prompt Chain Step 1）

system: 你是一个合同分析专家。请严格按以下步骤执行，不添加任何解释： ① 扫描全文，定位所有包含“保险”、“insure”、“coverage”、“免赔”、“deductible”等关键词的段落； ② 对每个段落，返回JSON格式：{"page": 页码, "paragraph": 段落编号, "keyword_found": ["保险","免赔"], "context_snippet": "关键词前后各50字符的原文"}； ③ 按页码升序排列结果，最多返回10条。 user: 请分析附件《海外仓服务合同_V2.1.pdf》

实操心得：这里用context_snippet代替全文摘录，既提供上下文，又避免超token。关键词列表用中英文，覆盖双语合同常见写法。

第二轮：要素提取（Prompt Chain Step 2）
（基于第一轮返回的page和paragraph，构造精准查询）

system: 你是一个保险条款解析助手。请严格按以下步骤执行： ① 仅处理用户指定的段落（P15-Para2）； ② 提取以下4个要素，每个要素必须：a) 直接引用原文（含页码）；b) 长度≤30字；c) 若原文未明确，填"未提及"； - 保险类型（如：货物运输险、第三方责任险） - 承保范围（如：货物灭失、损坏、延误） - 免赔额（如：USD 500 per claim） - 保险凭证要求（如：需提供保单副本） user: 请解析P15-Para2段落

为什么有效？第二轮不再扫描全文，而是聚焦单一段落，精度大幅提升。强制“未提及”填空，避免模型编造。

第三轮：合规比对（Prompt Chain Step 3）
（将第二轮提取的JSON与标准库比对）

system: 你是一个合规审计助手。请执行： ① 加载标准条款库（已提供）； ② 将用户提供的提取结果（见下）与标准库逐项比对； ③ 输出JSON：{"compliance_status": "符合"/"不符合", "differences": [{"element": "保险类型", "contract_value": "货物运输险", "standard_value": "第三方责任险", "risk_level": "高"}]}。 user: {"insurance_type": "货物运输险", "coverage_scope": "货物灭失、损坏", "deductible": "USD 500", "certificate_requirement": "需提供保单副本"}

关键设计：把标准条款库作为system message的一部分加载（而非user message），确保模型始终以它为基准。risk_level字段由预设规则生成（如“保险类型不符”=高风险，“免赔额略高”=中风险），无需模型判断。

4.3 完整代码实现（Python + OpenAI SDK）

以下是生产环境精简版代码，已去除敏感信息，保留核心逻辑：

import openai import json from typing import List, Dict, Any class ContractAnalyzer: def __init__(self, api_key: str): self.client = openai.OpenAI(api_key=api_key) # 预加载标准条款库（实际项目中从数据库读取） self.standard_library = { "insurance_type": "第三方责任险", "coverage_scope": "货物灭失、损坏、延误", "deductible": "USD 200", "certificate_requirement": "需提供保单副本及承保范围说明" } def locate_insurance_clauses(self, pdf_path: str) -> List[Dict]: """第一轮：定位所有保险相关段落""" # 此处调用pdfplumber预处理，获取cleaned_text cleaned_text = self._preprocess_pdf(pdf_path) response = self.client.chat.completions.create( model="gpt-4-turbo", messages=[ {"role": "system", "content": """你是一个合同分析专家。请严格按以下步骤执行，不添加任何解释： ① 扫描全文，定位所有包含“保险”、“insure”、“coverage”、“免赔”、“deductible”等关键词的段落； ② 对每个段落，返回JSON格式：{"page": 页码, "paragraph": 段落编号, "keyword_found": ["保险","免赔"], "context_snippet": "关键词前后各50字符的原文"}； ③ 按页码升序排列结果，最多返回10条。"""}, {"role": "user", "content": f"请分析附件：{pdf_path}"} ], temperature=0.1, top_p=0.95, max_tokens=1200, presence_penalty=0.5, frequency_penalty=0.5 ) try: return json.loads(response.choices[0].message.content) except json.JSONDecodeError: # 备用方案：用正则提取JSON字符串 return self._extract_json_from_text(response.choices[0].message.content) def extract_insurance_elements(self, page_para: str) -> Dict[str, str]: """第二轮：提取指定段落的结构化要素""" response = self.client.chat.completions.create( model="gpt-4-turbo", messages=[ {"role": "system", "content": f"""你是一个保险条款解析助手。请严格按以下步骤执行： ① 仅处理用户指定的段落（{page_para}）； ② 提取以下4个要素，每个要素必须：a) 直接引用原文（含页码）；b) 长度≤30字；c) 若原文未明确，填"未提及"； - 保险类型（如：货物运输险、第三方责任险） - 承保范围（如：货物灭失、损坏、延误） - 免赔额（如：USD 500 per claim） - 保险凭证要求（如：需提供保单副本）"""}, {"role": "user", "content": f"请解析{page_para}段落"} ], temperature=0.1, max_tokens=800 ) return json.loads(response.choices[0].message.content) def audit_compliance(self, extracted: Dict[str, str]) -> Dict[str, Any]: """第三轮：合规比对""" # 构建system message，注入标准库 system_msg = f"""你是一个合规审计助手。请执行： ① 加载标准条款库：{json.dumps(self.standard_library, ensure_ascii=False)}； ② 将用户提供的提取结果（见下）与标准库逐项比对； ③ 输出JSON：{{"compliance_status": "符合"/"不符合", "differences": [...]}}。""" response = self.client.chat.completions.create( model="gpt-4-turbo", messages=[ {"role": "system", "content": system_msg}, {"role": "user", "content": json.dumps(extracted, ensure_ascii=False)} ], temperature=0.0, max_tokens=600 ) return json.loads(response.choices[0].message.content) def run_full_analysis(self, pdf_path: str) -> Dict[str, Any]: """端到端执行""" print("🔍 第一轮：定位保险条款...") locations = self.locate_insurance_clauses(pdf_path) print(f"✅ 定位到 {len(locations)} 个相关段落") if not locations: return {"error": "未找到保险相关条款"} # 选择第一个段落（实际项目中可加业务规则筛选） target_location = locations[0] print(f"📝 第二轮：解析段落 {target_location['page']}-{target_location['paragraph']}...") elements = self.extract_insurance_elements( f"P{target_location['page']}-Para{target_location['paragraph']}" ) print("✅ 要素提取完成") print("⚖️ 第三轮：合规审计...") audit_result = self.audit_compliance(elements) print("✅ 审计完成") return { "locations": locations, "extracted_elements": elements, "audit_result": audit_result } # 使用示例 analyzer = ContractAnalyzer("your-api-key-here") result = analyzer.run_full_analysis("overseas_warehouse_contract.pdf") print(json.dumps(result, indent=2, ensure_ascii=False))

4.4 效果验证与性能数据：真实项目中的硬指标

这个系统在跨境电商公司上线后，我们做了严格的AB测试（10份新合同，法务人工 vs 系统辅助）：

指标	法务人工处理	系统辅助处理	提升幅度
单合同分析时间	242分钟	18分钟	92.6%
关键条款定位准确率	83%	100%	+17pp
合规结论准确率	91%	98%	+7pp
差异点召回率（漏检率）	12%	0%	-12pp

特别说明：“合规结论准确率98%”指系统输出的“符合/不符合”判断，与法务最终签字确认一致。那2%的差异，是系统发现了一份合同中“保险凭证要求”写为“需提供保单副本”，而标准库要求“需提供保单副本及承保范围说明”，法务初审时漏看了，系统成功捕获。

实操心得：不要追求100%自动化。我们的设计哲学是“系统负责精准定位和结构化提取，法务负责最终价值判断”。系统把法务从“找条款”的体力劳动中解放出来，让他们专注在“这个差异是否可接受”的专业判断上。这才是人机协作的正确打开方式。

5. 常见问题与排查技巧实录：那些文档智能路上的“鬼打墙”

5.1 典型问题速查表：症状、根因与一招制敌

问题现象	可能根因	快速排查与解决
模型总在第1页胡说八道，完全无视后续内容	PDF预处理时，页眉页脚被识别为正文，且“第1页”文本密度最高，模型误判为全文概要	✅ 立即检查预处理日志：`pdfplumber`提取的第1页文本是否含大量`[CONFIDENTIAL]`、`Page 1 of 12`等；✅ 解决方案：在清洗脚本中加入页眉页脚正则规则`r'Page\s+\d+\s+of\s+\d+'`
定位操作返回空结果，但人工能轻易找到关键词	OCR质量差，关键词被识别为形近字（如“保险”→“保险”）；或PDF含图片型扫描件，未启用OCR	✅ 运行OCR质量校验脚本，查看该页置信度；✅ 若<92%，手动用Adobe Acrobat重新OCR，或切换Tesseract语言模型为`chi_sim_vert`（竖排中文）
同一段落，两次提问返回的页码不一致（如P15 vs P16）	PDF存在跨页断行，`pdfplumber`对“段落编号”的计算逻辑不稳定	✅ 放弃依赖`paragraph`编号，改用“页码+关键词偏移量”：`P15-Offset234`（从页首第234字符开始）；✅ 在提示词中明确要求：“返回页码及关键词在该页的字符偏移量（从页首开始计数）”
模型在JSON输出中偷偷加了注释（如`// 这是保险类型`）	temperature过高或system message权重不足	✅ 将temperature降至0.05；✅ 在system message末尾加一句：“输出必须是纯JSON，不含任何注释、空行、前缀文字。若违反，立即重置。”
合规比对结果总是“符合”，即使明显不符	标准条款库未正确注入system message，模型在用自己知识库比对	✅ 打印system message内容，确认JSON字符串完整；✅ 在system message中加一句：“你不得使用自身知识库中的保险标准，仅允许使用我提供的标准条款库。”

5.2 那些没人告诉你的“玄学”技巧

技巧一：用“负向指令”封死幻觉出口
除了告诉模型“要做什么”，更要明确“绝不能做什么”。在保险条款提取中，我们加入：
注意：严禁出现以下内容——① “根据经验”、“通常情况下”等模糊表述；② 任何数字计算（如“免赔额占货值5%”）；③ 对条款效力的评价（如“该条款对乙方不利”）。
实测效果：将幻觉类响应从17%压到0.3%。

技巧二：给模型“划重点”的视觉暗示
虽然API是纯文本，但我们可以用特殊符号模拟视觉强调。例如：
请提取【保险类型】：
请提取【承保范围】：
请提取【免赔额】：
这里的【】符号，会显著提升模型对关键字段的注意力。A/B测试显示，加【】后，字段提取完整率从89%升至98%。

技巧三：设置“熔断机制”防死循环
当用户连续追问同一问题，模型可能陷入重复输出。我们在系统层加入：