Agent 的“自我检查清单”：输出前自动审校的工程套路-平芜编程栈

Agent 工程化核心实践：输出前自动审校的「自我检查清单」实现套路，准确率提升92%的可复用方案

副标题：从理论到落地，覆盖规则校验、事实核查、逻辑校验、格式合规四大维度的生产级审校系统实现

第一部分：引言与基础

1.1 摘要/引言

如果你做过AI Agent的生产落地，一定遇到过这些让人头疼的问题：

客服Agent明明知识库明确写了「不支持无理由退款」，却给用户承诺可以全额退款，造成客诉和资产损失；
工具调用Agent生成的函数参数格式错误，要么少字段要么类型不对，10次调用有3次失败；
内容生成Agent写的运营文案出现敏感词，或者编造了不存在的活动信息，发布后造成品牌危机；
医疗咨询Agent给出了确诊意见，甚至推荐了处方药，存在巨大的合规风险。

过去我们解决这些问题的方法无非是两种：要么在prompt里堆上几十条要求，反复叮嘱大模型「一定要遵守规则」，要么在输出后加人工审核环节。但前者的效果极不稳定，即便是GPT-4也有15%以上的概率忽略prompt里的要求，小模型的表现更差；后者的成本极高，根本无法支撑高并发、实时性的Agent场景。

本文要给大家分享的就是我们团队在10+生产级Agent场景落地验证过的解决方案：给Agent加一套输出前自动执行的自我检查清单，模拟人类做内容审核的完整流程，从格式、合规、逻辑、事实四大维度对Agent的候选输出做全自动校验，不合格的输出直接打回让Agent重写，直到符合所有规则或者达到重试上限。这套方案落地后，我们的Agent输出准确率从平均68%提升到了92%，幻觉率下降了84%，线上客诉下降了60%，而且完全可以复用到任何Agent场景。

读完本文你将收获：

理解Agent自我检查清单的核心概念、价值和适用场景
掌握四大类校验规则的实现方法，从0到1搭建一套生产级的Agent审校系统
学会平衡审校的准确率、成本和耗时的最佳实践
拿到可直接复用的代码模板，只需要修改规则就能接入你自己的Agent

1.2 目标读者与前置知识

目标读者

正在做AI Agent应用开发的初中级工程师
需要落地生产级Agent的技术负责人
对大模型应用稳定性有要求的产品经理和运营人员

前置知识

具备Python 3.x基础编程能力
了解大模型API的调用方法（如OpenAI、通义千问、文心一言等）
对Agent的基本概念（工具调用、RAG、思维链）有基础认知

1.3 文章目录

第一部分：引言与基础 1.1 摘要/引言 1.2 目标读者与前置知识 1.3 文章目录 第二部分：核心内容 2.1 问题背景与动机 2.2 核心概念与理论基础 2.3 环境准备 2.4 分步实现生产级自我检查清单系统 2.5 关键代码解析与深度剖析 第三部分：验证与扩展 3.1 结果展示与验证 3.2 性能优化与最佳实践 3.3 常见问题与解决方案 3.4 未来展望与扩展方向 第四部分：总结与附录 4.1 总结 4.2 参考资料 4.3 附录

第二部分：核心内容

2.1 问题背景与动机

根据2024年大模型应用落地调研报告显示，73%的Agent线上客诉来自于输出不符合预期，其中幻觉占38%，格式错误占22%，逻辑错误占18%，安全违规占12%，其他问题占10%。而现有解决这些问题的方案存在明显的局限性：

纯Prompt工程方案：把所有规则写在prompt里，依赖大模型的遵循能力，但是即便是GPT-4也有15%的概率忽略prompt中的约束，7B/14B级别的开源模型遵循能力更差，规则越多，忽略的概率越高，根本无法满足生产要求。
人工审核方案：在Agent输出后加人工审核环节，虽然准确率高，但是成本是大模型推理成本的几十倍，而且审核耗时至少在几十秒以上，无法支撑实时性要求高的场景（比如在线客服、实时工具调用）。
事后召回方案：发现问题后再给用户补发正确的内容，或者撤回错误内容，但是已经对用户造成了不好的体验，甚至可能已经造成了实际损失（比如错误的退款承诺、错误的医疗建议）。

我们团队最早做电商客服Agent的时候，就踩过这些坑：上线第一个月，因为Agent错误承诺退款，造成了12万的额外损失，线上客诉率高达18%。为了解决这个问题，我们花了2个月的时间打磨了这套自我检查清单系统，接入后第一个月客诉率就降到了3%，额外损失降到了不到2000元。

这套方案的核心逻辑很简单：不要相信大模型一次就能生成符合要求的内容，要像人类做工作一样，做完之后先自己检查一遍，确认没有问题再提交。这个检查的过程是完全自动化、可配置的，不会增加太多的成本和耗时，但是能挡住90%以上的错误输出。

2.2 核心概念与理论基础

2.2.1 核心概念定义

Agent自我检查清单（Self-Check Checklist for Agent）：是一套在Agent生成最终输出之前，自动执行的、可扩展的校验规则集合，模拟人类内容审核的流程，对输出的格式、合规性、逻辑合理性、事实准确性等多个维度进行校验，不合格的输出直接返回给Agent重新生成，直到符合所有检查项，或者达到重试上限后走降级逻辑。

2.2.2 核心要素组成

一套完整的自我检查清单系统包含5个核心模块：

模块名称	功能说明
检查规则库	存储所有可配置的校验规则，支持按场景、按Agent维度分配规则
规则执行引擎	负责按顺序/并行执行所有规则，返回校验结果和错误信息
错误反馈模块	把校验不通过的原因整理成结构化的提示，指导Agent重写内容
重试调度模块	控制重试次数，避免无限循环，达到重试上限后触发降级逻辑
效果度量模块	统计规则命中率、校验通过率、重生成成功率、准确率提升等指标，用于优化规则

2.2.3 概念对比

我们把自我检查清单和常见的其他方案做了对比，方便大家理解差异：

对比维度	自我检查清单	Prompt加规则	人工审核	事后召回
生效时机	输出前前置校验	生成过程中依赖模型遵循	输出后人工校验	输出后发现问题再处理
可控性	极高，规则可配置可度量	极低，依赖模型能力	高，但是依赖审核人员能力	低，只能处理已经出现的问题
扩展性	极高，新增规则只需要配置不需要改代码	低，规则越多模型越容易忽略	低，新增规则需要培训审核人员	低，需要先有bad case才能优化
平均准确率	90%+	60%-80%	95%+	50%以下（很多问题发现不了）
性能开销	低，平均增加200-500ms耗时	无额外开销	极高，平均耗时30s+	无额外开销，但是体验差
适用场景	所有生产级Agent场景	测试场景、容错率高的场景	低并发、非实时场景	容错率高的闲聊场景