导图社区 知识图谱概念
知识图谱概念的思维导图,构建方式;知识图谱的基本单位“实体(Entity)-关系(Relationship)-实体(Entity)构成的三元组;数据类型和存储方式。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
通俗易懂解释知识图谱(算法算力算量)
定义
知识图谱:是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。
知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理
构建方式
知识图谱有自顶向下和自底向上两种构建方式
所谓自顶向下构建是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;所谓自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。
知识图谱的基本单位“实体(Entity)-关系(Relationship)-实体(Entity)构成的三元组
数据类型和存储方式
一、知识图谱的原始数据类型一般来说有三类(也是互联网上的三类原始数据)
结构化数据(Structed Data):如关系数据库
半结构化数据(Semi-Structed Data):如XML、JSON、百科
非结构化数据(UnStructed Data):如图片、音频、视频、文本
二、存储方式
一个是通过RDF(资源描述框架)这样的规范存储格式来进行存储,还有一种方法,就是使用图数据库来进行存储,常用的有Neo4j等。
在知识图谱方面,图数据库比关系数据库灵活的多。
在数据少的时候,关系数据库也没有问题,效率也不低。但是随着知识图谱变的复杂,图数据库的优势会明显增加。当涉及到2,3度的关联查询,基于图数据库的效率会比关系数据库的效率高出几千倍甚至几百万倍。
知识图谱架构
1、逻辑架构
知识图谱在逻辑上可分为模式层与数据层两个层次。
模式层构建在数据层之上,是知识图谱的核心,通常采用本体库来管理知识图谱的模式层。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。
模式层:实体-关系-实体,实体-属性-性值
数据层:比尔盖茨-妻子-梅琳达·盖茨,比尔盖茨-总裁-微软
2、技术架构
三种数据→图谱构建过程(信息抽取、知识融合、知识加工)→知识图谱(迭代更新,慢慢积累)RDF或Geo4j
信息抽取
通过信息抽取,我们就从原始的非结构和半结构数据中获取到了实体、关系及实体属性信息
实体抽取(是最为基础和关键的,准确率和召回率)、关系抽取和属性抽取
实体抽取
人工预定义实体分类体系的方式
随机场CRF、自适应感知机算法
面向开放域的实体识别和分类研究,不需要为每个领域或实体类建立单独语料库作为训练集
一种思路是根据已知的实体实例进行特征建模,利用该模型处理海量数据集得到新的命名实体列表,然后针对新实体建模,迭代地生成实体标注语料库。
另一种思路是利用搜索引擎的服务器日志,事先并不给出实体分类等信息,而是基于实体的语义特征从搜索日志中识别出命名实体,然后采用聚类算法对识别出的实体对象进行聚类。
关系抽取
人工构造语法和语义规则(模式匹配)
统计机器学习方法
基于特征向量或核函数的有监督学习方法
研究重点转向半监督和无监督
开始研究面向开放域的信息抽取方法
将面向开放域的信息抽取方法和面向封闭领域的传统方法结合
属性抽取
将实体的属性视为 实体的一种名词性关系,将属性抽取任务转化为关系抽取任务
基于规则和启发式算法,抽取结构化数据
基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。
采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。
知识融合(实体链接、知识合并)
这些信息是拼图碎片,散乱无章,甚至还有其他拼图里的碎片,及本身就是干扰我们拼图的错误碎片
1.实体链接(entity linking):相似度计算
其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
一个实体的指称项是在具体上下文中出现的待消歧实体名。
1.从文本中通过实体抽取得到实体指称项。
2.进行实体消歧 和 共指消解
2 .知识合并
在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入。
常见的知识合并需求有两个,一个是合并外部知识库,另一个是合并关系数据库(其实质就是将关系数据库的数据换成RDF的三元组数据。)。
知识加工
7.1 本体构建
本体(ontology)是指工人的概念集合、概念框架,如“人”、“事”、“物”等。
本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。
自动化本体构建过程包含三个阶段:
1.实体并列关系相似度计算
2.实体上下位关系抽取
3.本体的生成
7.2 知识推理
在我们完成了本体构建这一步之后,一个知识图谱的雏形便已经搭建好了。但可能在这个时候,知识图谱之间大多数关系都是残缺的,缺失值非常严重,那么这个时候,我们就可以使用知识推理技术,去完成进一步的知识发现。
我们可以发现:如果A是B的配偶,B是C的主席,C坐落于D,那么我们就可以认为,A生活在D这个城市。
也可以是实体的属性值,本体的概念层次关系等
这一块的算法主要可以分为3大类,基于逻辑的推理、基于图的推理和基于深度学习的推理
7.3 质量评估
可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。
知识更新
概念层的更新
概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中
数据层的更新
数据层的更新主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗杂等问题)等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库。
知识图谱的内容更新有两种方式
全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。这种方法比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;
增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难。
总结:应用
通过知识图谱,不仅可以将互联网的信息表达成更接近人类认知世界的形式,而且提供了一种更好的组织、管理和利用海量信息的方式。目前的知识图谱技术主要用于智能语义搜索、移动个人助理(Siri)以及深度问答系统(Watson),支撑这些应用的核心技术正是知识图谱技术。
在智能语义搜索中,当用户发起查询时,搜索引擎会借助知识图谱的帮助对用户查询的关键词进行解析和推理,进而将其映射到知识图谱中的一个或一组概念之上,然后根据知识图谱的概念层次结构,向用户返回图形化的知识结构,这就是我们在谷歌和百度的搜索结果中看到的知识卡片
在深度问答应用中,系统同样会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。比如,如果用户提问:『如何判断是否感染了埃博拉病毒?』,则该查询有可能被等价变换为『埃博拉病毒的症状有哪些?』,然后再进行推理变换,最终形成等价的三元组查询语句,如(埃博拉,症状,?)和(埃博拉,征兆,?)等。如果由于知识库不完善而无法通过推理解答用户的问题,深度问答系统还可以利用搜索引擎向用户反馈搜索结果,同时根据搜索结果更新知识库,从而为回答后续的提问提前做出准备。