PDF解析+大模型=翻车？手把手教你构建可靠的知识库系统，建议收藏！-平芜编程栈

文章揭示了PDF文档解析中，大模型(如Coze)在处理非结构化数据时存在准确性问题，简单问题可能给出错误且不一致结果。在高精度要求场景下，1%错误率仍需大量人力验证。作者提出解决方案包括人工数据清洗、规范化问答对、双层保险机制等，质疑问答场景中是否必须引入重量级大语言模型，认为可通过低成本方式构建更可靠的系统。

比如有一些这样的pdf文档内容，里面有关于每项服务的办理流程，为便于截图，随意展示几项，比如：

门诊就诊需要的办理要件，路径和办理时限：

住院服务需要的办理要件，路径和办理时限：

出院服务需要的办理要件，路径和办理时限：

投诉举报需要的办理要件（无），路径和办理时限：

其他还有很多内容，但是这些内容都有一个共同的特征：无结构数据，除非人工整理成结构数据。

现在基本上每个知识库服务商都能解析pdf 文档，像coze，dify等，为了方便起见，我们把它直接喂给coze，利用它们的自有能力来分析文档。

随后，我们来一个简单测试。就拿上面的截图内容，所有服务办理期限都是即时办结，但是投诉举报需要3-7工作日。

我们就拿这个来问问大模型：

这就是coze 智能体给出的应答，同样的问题，多次询问给出不同的结果，而且每次都不正确。

看到这种结果，着实有点儿让人后背发凉。

如果拿着大厂背景的技术方案去服务客户，结果可想而知，一定会被骂得狗血淋头。

大模型本身还有很多的技术问题没有完全解决，以上这个问题也许不是特别严重，但是至少我们能够窥见类似这样的问题一定会大量存在，在一些对问题准确性要求较高的场景下，哪怕有1%的错误率，我们都没法放心去使用它，因为哪怕1%的错误率，仍然需要花费大量人力去保证结果正确。

但是这个问题我们有没有不费太高的代价解决吗？

肯定有。

至少在这个案例中不能完全依赖pdf的解析能力，数据的清洗工作最好还是需要人工去兜底把关。

比如在我们的实时互动系统管理后台中，我们提供了添加问答对的能力：

规范化的问答内容逐项增加到私有知识库：

在进行互动问答中，这些信息以高优先级响应，当没有匹配到这些信息，才会走底层大模型的私有知识库。

但是问答对也存在问题，比如上面内容中所有服务办理时限都是即时办结，但是只有一项举报投诉服务是3-7工作日。

这导致每一服务都要增加一条知识对，这显得有些繁琐。

除非能支持这样一条规则：“除了举报投诉的办理时限是3-7工作日，其他服务都是即时办结”。

但是这种推理能力需要大语言模型的支持。

还有一个问题，比如用户问“住院服务需要什么要件”，这个问题一旦到用户侧有可能变成上百种不同的问法，所以系统必须具备语意分析能力。

这其实已经引出一个问题：也就是在当前问答场景中，是否有必要引入大语言模型这种重量级的产品？

至少从我们的实践看来是不必的。

但是如果图省事，比如我就想利用一些智能体的基础能力，那么结合大语言模型是很好的选择。

那这样在双层保险中，问答会更准确。

但是没有智能体，同样也能在低成本代价中达到同样的目的。

如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓