文献综述:近年“知识工程(Knowledge Engineering)与知识库/知识图谱建设(KB/KG)”研究脉络
研究主题的总体画像:从“构建知识库”到“工程化知识系统”
从你给出的文献分布看,2023–2025 年的研究重心明显从传统“本体/规则+人工建库”转向三条并行路线:
工程化与标准化(Reference Architecture / Best Practices)
以 Allen、Ilievski 等(2023–2024–2025 相关条目)为代表,强调把知识工程从“手艺活”变成可复用的方法体系:包含流程、质量属性、评估基准、参考架构与治理机制。这类工作解决的是“怎么做才算规范、可控、可维护”。LLM/生成式AI 介入知识工程全流程(从辅助到部分自动化)
多篇文献围绕:LLM 在知识获取、抽取、对齐、修复、问答与交互式建库中的作用(如 Walker/Simperl 2024;Zhang/Simperl 2023;以及多篇 2025 的 agent/多智能体框架)。核心问题从“能不能用”变为“可信性、可追溯性、质量控制与成本如何工程化落地”。行业/任务驱动的知识库系统(Biomedical/Robotics/Wind Energy/Legal/Climate/Chinese NLP 等)
大量条目属于领域型知识库:生物医学(疾病、癌症问答、阿尔茨海默、SLKB、HTNpedia 等)、机器人操作本体、风能知识工程、战略物流、环境可持续医疗、法律推理等。此类研究把“知识库建设”与具体应用效果绑定,强调可部署、可运行、可扩展。
方法论层面的共同框架:一条典型“知识库建设流水线”
综合这些条目可以抽象出一条高频流水线(不同论文侧重不同环节):
- 需求与范围界定:明确领域边界、能力目标(检索、推理、问答、决策支持等)与评价指标(准确性、一致性、覆盖率、时效性)。
- 知识获取(KA):来源包括文献、指南、数据库、企业系统、传感数据与专家经验;近年新增“LLM/代理+人工审核”的半自动知识获取。
- 表示与建模:本体/模式(schema)、三元组图谱、逻辑规则、因果模型、信念库等并存;部分研究强调神经符号混合。
- 构建与集成:抽取、实体消歧、对齐、融合、去重;企业数据到KG映射(2025 多智能体/LLM 映射方向)。
- 质量保障:验证/校验、语义一致性评估、不一致性度量与定位、调试(含基于查询的本体调试、质量框架等)。
- 维护与演化:版本控制、增量更新、本体演化与知识库补全;以及面向开放科学/开放数据的持续部署。
- 应用与评测:KBQA、Text-to-SQL、推荐系统、决策支持、规划与推理、科学假设验证等。
这条链路的价值在于:它把“文献堆叠”转成“你论文可用的章节结构/研究框架”。
关键趋势1:LLM 让知识工程“更快”,也让质量治理更重要
你提供的 2023–2025 文献中,LLM 相关主题密集出现,主要落在三种用法:
- 生成式辅助建模:用提示工程把领域文本转为候选本体/三元组/规则;优势是速度,风险是幻觉与不可控偏差。
- RAG/知识注入:把外部知识图谱/知识库接入生成模型,提高领域问答与推理可靠性(如癌症问答框架等)。
- Agentic Knowledge Engineering(多智能体自动化):自动抽取—对齐—验证—修复形成闭环,用代理分工提升吞吐量,但对评测与审计提出更高要求。
因此,质量评估、可追溯与责任边界成为关键:语义一致性、验证框架、不一致性度量、调试方法等方向在你的清单里也对应出现,表明研究正在从“能建”走向“能长期用”。
关键趋势2:从“通用知识图谱论文”回到“领域知识系统落地”
你的清单里行业案例占比高(医疗、生物、风能、物流、法律、教育、中文语言计算、数字人文等)。这说明:
- 研究评判标准更偏向可用性与可部署性:不是只报告抽取 F1,而是是否支撑决策支持、科学发现、临床/工程流程。
- 领域知识库往往更重视治理与维护成本:更新频率、溯源、合规、专家审核接口、版本演化。
- 多模态与复杂结构开始常态化(文本+表格+数据库+传感数据),推动集成方法与参考架构的重要性。
关键趋势3:评估体系正在从“任务指标”扩展到“知识资产指标”
传统评估多用 KBQA 准确率、补全性能、Text-to-SQL 准确率等;而你清单中也出现:
- 语义一致性评估、校验验证框架、不一致性度量/定位、调试等,体现知识库作为“资产”的质量管理。
- 这类工作与“标准化实践/参考架构”结合后,可以形成更完整的“工程闭环”:建—测—修—管—用。
综述写作骨架
(1)研究背景:知识工程从专家系统走向知识图谱与神经符号系统;行业知识库成为基础设施。
(2)核心概念:知识工程流程、知识库/知识图谱、表示方法、本体与规则、因果/信念库。
(3)方法谱系:知识获取→表示建模→构建集成→质量保障→演化维护→应用评测。
(4)LLM/代理对流程的重塑:半自动知识获取、自动映射与修复、RAG与可追溯生成。
(5)行业落地案例对方法提出的约束:时效、合规、可维护、可解释与可审计。
(6)研究空白与挑战:质量评估标准不统一、幻觉与偏差治理、跨源融合成本高、持续演化困难。
(7)未来方向:参考架构+质量框架、自动化闭环(agentic)、神经符号混合、面向应用的可验证知识库。