知识图谱的数据层是本体的实例。
如果不需支持推理, 则知识图谱(大多是自底向上构建的) 可以只有数据层而没有模式层。在知识图谱的模式层,节点表示本体概念,边表示概念间的关系。
知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。
将原始数据分为结构化数据、半结构化数据和非结构化数据,根据不同的数据类型,我们采用不同的方法进行处理。
实体抽取,也称为命名实体识别,实体的类型主要包括三大类七小类:实体类(包括人名,地名,机构名);时间类(日期,时间);数字类(货币、百分比).
关系抽取,也就是实体和实体之间的关系,也是文本中的重要知识,需要采用一定的技术手段将关系信息提取出来。
属性抽取,也就是实体的属性信息,和关系比较类似,关系反映实体的外部联系,属性体现实体的内部特征。属性抽取的目标是从不同信息源中采集特定实体的属性信息,从而完成对实体属性的完整勾画,如针对某款手机,可以从互联网中获取多源(异构)的数据,从中得到其品牌、配置等信息。如果把实体的属性值看作是一种特殊的实体,那么属性抽取实际上也是一种关系抽取。 百科类网站提供的半结构化数据是通用领域属性抽取研究的主要数据来源,但具体到特定的应用领域,涉及大量的非结构化数据,属性抽取仍然是一个巨大的挑战。
知识融合旨在解决如何将关于同一个实体或概念的多源描述信息融合起来。
不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。
主要关键技术包括:指代消解、实体消歧、实体链接
指代消解(Coreference Resolution)
Coreference Resolution,字面上翻译应该是“共指消解”,一般情况下,指代分为三种(NLP领域一般只关注前两种指代类型):回指(也称指示性指代),共指(也称同指),下指。(非结构化数据,如文本中)。
实体消歧(Entity Disambiguation)
实体消歧是专门用于解决同名实体产生歧义问题的技术。
实体链接(Entity Linking)
对于非结构化数据(如文本)或半结构化数据(如表格)中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
知识合并
对于结构化数据, 如外部知识库和关系数据库。对于这部分结构化数据的处理,就是知识合并的内容啦。一般来说知识合并主要分为两种:
合并外部知识库,主要处理数据层和模式层的冲突。将外部知识库融合到本地知识库需要处理2个层面的问题.①数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余;②通过模式层融合,将新得到的本体融入已有的本体库中。
合并关系数据库,有RDB2RDF等方法。将外部知识库融合到本地知识库需要处理2个层面的问题.①数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余;②通过模式层融合,将新得到的本体融入已有的本体库中。
其他:除了关系型数据库之外,还有许多以半结构化方式存储(如XML,CSV,JSON等格式)的历史数据也是高质量的知识来源,同样可以采用RDF数据模型将其合并到知识图谱当中。
所解决的问题:通过信息抽取,可以从原始语料中提取出实体、关系与属性等知识要素。再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而,事实本身并不等于知识,要想最终获得结构化、网络化的知识体系,还需要经历知识加工的过程。
涉及的关键技术:本体构建、知识推理、质量评估。
本体构建:本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义。本体是树状结构,相邻层次的节点(概念)之间具有严格的“IsA”关系,这种单纯的关系有助于知识推理,但不利于表达概念的多样性。
在知识图谱中,本体位于模式层,用于描述概念层次体系,是知识库中知识的概念模板。本体构建的方法有:
(1)手动构建:采用人工编辑的方式手动构建(借助本体编辑软件)
(2)自动构建:采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。自动化本体构建过程包含3个阶段:实体并列关系相似度计算、实体上下位关系抽取以及本体的生成。
知识推理
知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。
知识推理的对象并不局限于实体间的关系,也可以是实体的属性值、本体的概念层次关系等。知识的推理方法可以分为2大类:基于逻辑的推理和基于图的推理。
基于逻辑的推理
一阶谓词逻辑:建立在命题的基础上,在一阶谓词逻辑中,命题被分解为个体(individuals)和谓词(predication)两部分。例如对于人际关系可以采用一阶谓词逻辑进行推理,方法是将关系视为谓词,将人物视为变元,采用逻辑运算符号表达人际关系,然后设定关系推理的逻辑和约束条件,就可以实现简单关系的逻辑推理。
描述逻辑:是一阶谓词逻辑的子集,基于描述逻辑的知识库一般包含TBox(terminology box)与ABox(assertion
box),其中,TBox是用于描述概念之间和关系之间的关系的公理集合,ABox是描述具体事实的公理集合。借助这2个工具,可以将基于描述逻辑的推理最终归结为ABox的一致性检验问题,从而简化并最终实现关系推理。
基于规则:例如利用专门的规则语言(如semantic web rule language, SWRL)对本体模型添加自定义规则进行功能拓展。
基于图的推理方法主要基于神经网络模型或PathRanking算法等
质量评估
质量评估是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。
时序知识图谱
当前知识图谱研究大多关注静态KG,不会随时间变化,而时变的KG探索较少。但是时序信息非常重要,因为很多结构化的知识只在特定的之间内有效,facts的变化遵循一个时间序列。近来的研究开始将时序信息融入到KRL和KGC中,称为时序知识图谱。
具体内容:引用[3]及《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》
引用: