在知识图谱构建中,知识抽取已经能够从原始数据中识别出实体、关系和属性,但这些结果往往还是零散的,抽取之后并不能直接得到高质量图谱,还必须经过知识融合,才能把分散的知识单元组织成较一致、较完整的知识对象。
一、什么是知识融合
知识融合(Knowledge Fusion),是指将多个知识源中的知识进行整合,使关于同一实体或概念的多源描述能够被归并、对齐和统一的过程。它的目标,不是简单“把数据放在一起”,而是解决两个更本质的问题:
(1)这些描述说的是不是同一个对象;
(2)如果是同一个对象,应当怎样形成统一表达。
如果说知识抽取解决的是“从数据中找出知识”,那么知识融合解决的就是“怎样把这些知识归并到正确对象上”。因此,知识融合并不是知识图谱中的附属环节,而是从“信息碎片”走向“统一知识对象”的关键一步。
二、知识融合主要解决哪些问题
抽取得到的知识单元,通常会出现以下问题:
(1)同一实体有多种写法;
(2)同一名称可能指向不同实体;
(3)多个来源对同一对象的描述不完整;
(4)不同来源之间可能存在重复、冲突或不一致。
继续沿用艺术领域文本示例:
法国印象派画家克劳德·莫奈(Claude Monet)于 1872 年创作了著名的油画《日出·印象》(Impression, Sunrise),这幅作品现收藏于法国勒阿弗尔美术馆。
假设系统已经从不同来源抽取出以下表达:
“克劳德·莫奈创作了《日出·印象》”“Claude Monet painted Impression, Sunrise”“莫奈作品《日出·印象》现藏于勒阿弗尔美术馆”这三条信息看上去来自不同来源、使用不同语言、表达方式也不相同,但它们很可能都在描述同一个画家、同一幅作品和相关关系。若不经过融合,图谱中就可能出现多个“莫奈”、多个《日出·印象》,甚至形成重复或冲突节点。
因此,知识融合的任务,就是把这些分散描述整理为统一知识对象。
知识融合并不只是“去重”,而是要在多个层面上把知识统一起来。常见问题主要包括以下几类。
三、知识融合的几项关键任务
围绕上述问题,知识融合通常会涉及指代消解、实体消歧、实体链接和知识合并等任务。它们都服务于“统一知识表示”,但关注点并不相同。
1、指代消解
指代消解(Coreference Resolution)主要面向文本内部的指称关系。它要判断多个名词、短语或代词是否指向同一个真实对象。
例如,在一段艺术评论中,前文写“克劳德·莫奈”,后文改写成“他”“这位印象派画家”“莫奈本人”。这些称呼表面不同,但很可能都指向同一实体。
对知识图谱来说,指代消解的重要性在于:如果文本内部的这些说法没有被识别为同一对象,那么同一实体的信息就会被拆散,后续的实体归并和关系组织都会受到影响。
2、实体消歧
实体消歧(Entity Disambiguation)主要解决同名实体带来的歧义问题。它不是简单看名称,而是结合上下文、类别和已有知识来判断当前提法究竟对应哪一个对象。
例如,“莫奈”在一般艺术语境中通常指克劳德·莫奈,但在特殊文本环境中,系统仍需通过上下文确认具体所指。再如,“日出”既可能是普通词,也可能是作品标题的一部分。
实体消歧的重要作用有两点:
(1)减少同名实体带来的歧义;
(2)降低图谱的冗余和稀疏性。
3、实体链接
实体链接(Entity Linking)是指把从文本或表格中抽取得到的实体对象,链接到知识库中已经存在的正确实体对象。它通常包括两个基本步骤:
(1)生成候选实体;
(2)通过相似度计算和上下文匹配,选择最合适的对象。
例如,系统从文本中识别出“Claude Monet”,接下来要判断它应当链接到图谱中的“克劳德·莫奈”节点,而不是新建一个重复实体。
实体链接的意义在于:它让新抽取出来的知识,能够接入已有图谱,而不是变成孤立片段。
4、知识合并
对于外部知识库和关系数据库等结构化来源,知识融合还会表现为更广义的知识合并(Knowledge Merging)。它解决的是不同结构化来源之间的字段差异、模式差异和语义差异问题。
例如,一个来源把“创作时间”写成字段,另一个来源把“创作时间”写在说明文字中,还有的来源只写“19 世纪后期”。
这些信息都可能描述同一个属性,但表达方式并不一致。知识合并要做的,就是把这些结构化或半结构化知识统一整理进图谱。
5、几项关键任务之间是什么关系
这几项任务虽然都服务于知识融合,但它们的处理层面并不相同:
指代消解:主要处理文本内部不同说法之间的对应关系;
实体消歧:主要处理同名实体的歧义问题;
实体链接:主要处理抽取对象与知识库节点之间的连接问题;
知识合并:主要处理多源结构化知识之间的统一问题。
可以用下面的示意图概括它们之间的关系:
仍以上面的莫奈示例来说:
(1)“克劳德·莫奈”“Claude Monet”“这位画家”先通过指代消解归并;
(2)再通过实体消歧判断当前语境确实指向这位印象派画家;
(3)最后通过实体链接,把它接到知识图谱中的“克劳德·莫奈”节点上;
(4)若还有外部数据库中的结构化记录,则再通过知识合并纳入同一对象。
延伸阅读:
《实体标识、实体消歧与实体对齐:从“同名”到“同一”》
四、知识融合后的结果
知识融合的结果,不只是让图谱中的实体“变少”,而是让图谱中的知识“变得更统一、更完整”。
继续以上面的莫奈示例来说,融合之后,系统希望形成的是一个统一对象:
• 实体:克劳德·莫奈
• 别名:莫奈、Claude Monet
• 关系:创作《日出·印象》
• 属性:出生年份、流派、相关机构等
也就是说,融合后的知识不再是彼此平行的碎片,而是围绕统一对象组织起来的结构化描述。
这说明,知识融合真正完成的是“多源描述到统一知识对象”的转换。
五、知识融合在知识图谱中的作用
知识融合的核心价值,在于把多源知识从“并列堆放”变成“统一组织”。它让同一实体的多种写法能够汇聚到同一个节点,让同名或近义对象不至于被混淆,也让不同来源的数据能够共同参与知识图谱构建。
但融合之后,知识仍然主要是经过整理的事实表达,并不等于已经形成可推理、可评估、可长期维护的知识体系。要让知识真正进入更稳定的图谱形态,还需要进一步经过本体构建、知识推理和质量评估等知识加工过程。
📘 小结
知识融合的任务,是把知识抽取得到的碎片化结果整合为较一致、较完整的知识对象。它通过指代消解、实体消歧、实体链接和知识合并,解决多源知识中的重复、歧义和冲突。
“点赞有美意,赞赏是鼓励”