导图社区 知识图谱技术综述
干货分享!一图带你了解知识图谱技术(人工智能的一个方向)。这份思维导图整理了知识图谱技术的知识点,包括知识图谱定义与架构、大规模知识库、知识图谱关键技术、知识图谱的典型应用这四个方面的内容,分享给大家。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
知识图谱技术综述
知识图谱定义与架构
定义
知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述
逻辑结构
模式层
模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达
数据层
数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储
知识图谱构建方式
模式结构的构建
自顶向下
自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库
自底向上
自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。
大规模知识库
通用知识库
FreeBase
Wikidata
DBpedia
YAGO
行业知识库
IMDB
MusicBrainz
ConceptNet
知识图谱关键技术
c
知识抽取主要是面向开放的链接数据,通过自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。
实体抽取
从原始语料中自动识别出命名实体。
基于规则与词典的实体抽取方法
例如使用已定义的规则,抽取出文本中的人名、地名、组织机构名、特定时间等实体
基于统计机器学习的实体抽取方法
将机器学习中的监督学习算法用于命名实体的抽取问题
面向开放域的实体抽取方法
通过少量的实体实例建立特征模型,再通过该模型应用于新的数据集得到新的命名实体
关系抽取
关系抽取的目标是解决实体间语义链接的问题
开放式实体关系抽取
基于联合推理的实体关系抽取
属性抽取
属性抽取主要是针对实体而言的,通过属性可形成对实体的完整勾画,有两种方法 一种是将上述从百科网站上抽取的结构化数据作为可用于属性抽取的训练集,然后再将该模型应用于开放域中的实体属性抽取 另一种是根据实体属性与属性值之间的关系模式,直接从开放域数据集上抽取属性。
知识表示
知识表示就是对知识的一种描述,或者说是对知识的一组约定,一种计算机可以接受的用于描述知识的数据结构。它是机器通往智能的基础,使得机器可以像人一样运用知识。
应用场景
语义相似度计算
由于实体通过分布式表示 而形成的是一个个低维的实值向量,所以,可使用 熵权系数法、余弦相似性等方法计算它们间的 相似性。这种相似性刻画了实体之间的语义关联程 度,为自然语言处理等提供了极大的便利。
链接预测
通过分布式表示模型,可以预测 图谱中任意两个实体之间的关系,以及实体间已存 在的关系的正确性。尤其是在大规模知识图谱的上 下文中,需要不断补充其中的实体关系,所以链接 预测又被称为知识图谱的补全
传统代表模型
翻译模型
距离模型
单层神经网络模型
双线性模型
神经张量模型
矩阵分解模型
复杂关系模型
复杂关系主要指的是1-to-N、N-to-1、N-to-N的3种关系类型。
TransH模型
TransR模型
TransD模型
TransG模型
KG2E模型
知识融合
由于知识图谱中的知识来源广泛,存在知识质 量良莠不齐、来自不同数据源的知识重复、知识间 的关联不够明确等问题,所以必须要进行知识的融 合。 知识融合是高层次的知识组织,使来自不同 知识源的知识在同一框架规范下进行异构数据整 合、消歧、加工、推理验证、更新等步骤,达到 数据、信息、方法、经验以及人的思想的融合,形 成高质量的知识库。
实体对齐
用于消除异构数据中实体冲突、指向不明等不一 致性问题,可以从顶层创建一个大规模的统一知识 库,从而帮助机器理解多源异质的数据,形成高质 量的知识。 在进行知识库实体对齐时,主要会面临以下3个方面的挑战: 1)计算复杂度。匹配算法的计算复杂度会会随知识库的规模呈二次增长,难以接受; 2)数据质量。由于不同知识库的构建目的与方式有所不同,可能存在知识质量良芳不齐、相似重复数据、孤立数据、数据时间粒度不一致等问题 3)先验训练数据。在大规模知识库中想要获得这种先验数据却非常困难。通常情况下,需要研究者手工构造先验训练数据。
成对实体对齐方法
基于传统概率模型的实体对齐方法
基于传统概率模型的实体对齐方法主要就是考虑两个实体各自属性的相似性,而并不考虑实体间的关系。
基于机器学习的实体对齐方法
基于机器学习的实体对齐方法主要是将实体对齐问题转化为二分类问题。
局部集体实体对齐方法
为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,还可使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度
全局集体实体对齐方法
基于相似性传播的集体实体对齐方法
基于相似性传播的方法是一种典型的集体实体对齐方法,匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性,而这种相似性又会影响关联的其他实体
基于概率模型的集体实体对齐方法
主要采用统计关系学习进行计算与推理,常用的方法有LDA模型、CRF模型、Markov逻辑网等。
知识加工
本体构建
本体是同一领域内不同主体之间进行交流、连通的语义基础, 其在知识图谱中的地位相当于知识库的模具,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。 本体可通过人工编辑的方式手动构建,也可通过数据驱动自动构建,然后再经质量评估方法与人工审核相结合的方式加以修正与确认。
质量评估
对知识库的质量评估任务通常是与实体对齐任务一起进行的,其意义在于,可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效确保知识的质量。
知识更新
模式层更新
是指本体中元素的更新,包括概念的增加、修改、删除,概念属性的更新以及概念之间上下位关系的更新等。
数据层更新
数据层的更新指的是实体元素的更新,包括实体的增加、修改、删除,以及实体的基本信息和属性值更新。
知识推理
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库
基于逻辑的推理
基于逻辑的推理方式主要包括一阶谓词逻辑(first order logic)、描述逻辑(description logic)以及规则等
基于图的推理
通过图中两个实体间的多步路径来预测它们之间的语义关系。即从源节点开始,在图上根据路径建模算法进 行游走,如果能够到达目标节点,则推测源节点和目标节点间存在联系。
知识图谱的典型应用
智能搜索
深度问答
社交网络
垂直行业应用
金融行业
医疗行业
电商行业