导图社区 知识图谱技术综述
这是一篇关于知识图谱技术综述的思维导图,知识图谱技术综述,详细总结了知识图谱定义与框架,大规模知识库,知识图谱关键技术,知识图谱的典型应用。
编辑于2022-05-04 13:56:00知识图谱技术综述
知识图谱定义与架构
定义
知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述
逻辑结构
模式层
模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达
数据层
数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储
实体-关系-实体; 实体-属性-属性值
知识图谱构建方式
模式结构的构建
自顶向下
自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库
比如:先从百度百科、维基百科上获取高质量的本体和数据模型,再去补充;
自底向上
自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。
比如:从各种网站互联网中爬取数据信息,以及其之间的关系、属性;
大规模知识库
通用知识库
FreeBase
Wikidata
DBpedia
YAGO
行业知识库
IMDB
MusicBrainz
ConceptNet
知识图谱关键技术
知识表示
知识表示就是对知识的一种描述,或者说是对知识的一组约定,一种计算机可以接受的用于描述知识的数据结构。它是机器通往智能的基础,使得机器可以像人一样运用知识。
应用场景
语义相似度计算
由于实体通过分布式表示而形成的是一个个低维的实值向量,所以,可使用熵权系数法、余弦相似性等方法计算它们间的相似性。这种相似性刻画了实体之间的语义关联程度,为自然语言处理等提供了极大的便利。
链接预测
通过分布式表示模型,可以预测图谱中任意两个实体之间的关系,以及实体间已存在的关系的正确性。尤其是在大规模知识图谱的上下文中,需要不断补充其中的实体关系,所以链接预测又被称为知识图谱的补全
传统代表模型
翻译模型
距离模型
单层神经网络模型
双线性模型
神经张量模型
矩阵分解模型
复杂关系模型
复杂关系主要指的是1-to-N、N-to-1、N-to-N的3种关系类型。
TransE模型
将关系理解成实体在低维向量空间中的平移操作,模型学习得到的分布式表示有效缓解了知识图谱的高稀疏度问题
TransH模型
在TransE 的基础上引入了超平面,解决非一对一的复杂关系的表示问题
TransR模型
TransD模型
TransG模型
KG2E模型
程云龙、赵凡、高满
信息抽取
知识抽取主要是面向开放的链接数据,通过自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。
实体
早期:通过规则来抽取,现在通过统计机器学习等方法;
通过召回率和准确率来评价抽取信息的好坏;
关系
可根据数据对象的不同采用不同的关系抽取模型,开放域的数据?封闭域的数据?两者相结合? 例如Banko等人提出了一种基于条件随机场的关系抽取模型(H—CRF),当目标数据集中拥有的关系数量不大,而且有预先定义好的实体关系分类模型可用的情况下,采用传统的机器学习算法进行关系抽取,而对于没有预先定义好的实体关系模型或者关系数量过多的情况,则采用开放域关系抽取方法.微软公司人立方项目所采用的StatSnowball模型也是基于这种策略实现其关系抽取功能.
早期:人工+模式匹配来抽取
借助统计机器学习方法来建模
特征向量/核函数等
准确率比前面都要高,但是需要人工标注大量的语料作为训练集
属性
可类似的看做为关系的抽取
申秋萍、肖嘉瑜负责
知识融合
由于知识图谱中的知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。
实体链接
指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作
实体消歧:专门用于解决同名实体产生歧义问题的技术
共指消解:主要用于解决多个指称项对应于同一实体对象的问题
知识合并
在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入
合并外部知识库
合并关系数据库
实体对齐
用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。在进行知识库实体对齐时,主要会面临以下3个方面的挑战:1)计算复杂度。匹配算法的计算复杂度会会随知识库的规模呈二次增长,难以接受;2)数据质量。由于不同知识库的构建目的与方式有所不同,可能存在知识质量良芳不齐、相似重复数据、孤立数据、数据时间粒度不一致等问题3)先验训练数据。在大规模知识库中想要获得这种先验数据却非常困难。通常情况下,需要研究者手工构造先验训练数据。
成对实体对齐方法
基于传统概率模型的实体对齐方法
基于传统概率模型的实体对齐方法主要就是考虑两个实体各自属性的相似性,而并不考虑实体间的关系。
基于机器学习的实体对齐方法
基于机器学习的实体对齐方法主要是将实体对齐问题转化为二分类问题。
局部集体实体对齐方法
为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,还可使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度
全局集体实体对齐方法
基于相似性传播的集体实体对齐方法
基于相似性传播的方法是一种典型的集体实体对齐方法,匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性,而这种相似性又会影响关联的其他实体
基于概率模型的集体实体对齐方法
主要采用统计关系学习进行计算与推理,常用的方法有LDA模型、CRF模型、Markov逻辑网等。
知识加工
本体构建
本体是同一领域内不同主体之间进行交流、连通的语义基础, 其在知识图谱中的地位相当于知识库的模具,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。本体可通过人工编辑的方式手动构建,也可通过数据驱动自动构建,然后再经质量评估方法与人工审核相结合的方式加以修正与确认。
知识推理
知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。 举例:已知(乾隆,父亲,雍正)和(雍正,父亲,康熙), 可以得到(乾隆,祖父,康熙)或(康熙,孙子,乾隆). 知识推理的对象并不局限于实体间的关系,也可以是实体的属性值、本体的概念层次关系等 注明:由于推理得到的知识准确性低、冗余度高,因此在将其加入到知识库之前,通常需要进行可证明性检查、矛盾性检查、冗余性检查以及独立性检查,以确保推理的知识加入知识库后不会产生矛盾和冗余
基于逻辑的推理
举例来说,对于人际关系可以采用一阶谓词逻辑进行推理,方法是将关系视为谓词,将人物视为变元,采用逻辑运算符号表达人际关系,然后设定关系推理的逻辑和约束条件,就可以实现简单关系的逻辑推理.
一阶谓词逻辑、描述逻辑以及规则等
基于图的推理
通过图中两个实体间的多步路径来预测它们之间的语义关系。即从源节点开始,在图上根据路径建模算法进行游走,如果能够到达目标节点,则推测源节点和目标节点间存在联系。
基于神经网络模型
Path Ranking算法(类似于图论中的图)
高渝、周靖鹏、吴鹏
质量评估
对知识库的质量评估任务通常是与实体对齐任务一起进行的,其意义在于,可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效确保知识的质量。
知识更新
人类所拥有的信息和知识量都是时间的单调递增函数,因此知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程.
概念层更新(模式层)
概念层的更新是指新增数据后获得了新的概念,需要动将新的概念添加到知识库的概念层中。 指本体中元素的更新,包括概念的增加、修改、删除,概念属性的更新以及概念之间上下位关系的更新等。
数据层更新
数据层的更新指的是实体元素的更新,包括实体的增加、修改、删除,以及实体的基本信息和属性值更新。
两种方式
数据驱动下全面更新
指以更新后的全部数据为输入,从零开始构建知识图谱.这种方式比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护
数据驱动下增量式更新
以当前新增数据为输入,向现有知识图谱中添加新增知识.这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难
知识图谱的典型应用
智能搜索
深度问答
社交网络
垂直行业应用
金融行业
医疗行业
电商行业