导图社区 知识库导论图谱
知识库导论图谱的思维导图,如何制作知识图谱?知识图谱是一种知识的表达形式,能够帮助机器变得更聪明,让人工智能更智能。
编辑于2023-08-07 16:33:27 山东省知识图谱导论
全文总结
信息量和指导性非常大
首先思考一个问题,如何将自己脑中的知识表示出来,并且如何让其他人看懂?
Q.什么是知识图谱?
解释:人类在实践中认识客观世界(包括人类自身)的成果。(经验、理论知识)
机器方面:知识图谱中的知识是机器在实践中认识客观世界的成果,机器如何像人类一样去认识客观世界的成果?
人类视角:人类是如何去学习知识的,e.g.文字、语言(
知识的表达形式 ,中介),知识本身对于人类和机器是平等的:比如说,我长得很帅(人类的方式) 机器视角:不理解“我长得很帅”这句话,需要将它表达成机器能理解的形式(向量化的表示和神经网络),机器有适合它的理解和表达知识的形式;
知识图谱就是一种适合于机器的知识的表示形式;严格定义是:
知识图谱本质上是一种结构化的知识表示形式,它是利用图结构建模、识别、和推断事物之间的复杂关联和沉淀领域知识,因为结构化数据更容易被计算机处理,而图结构能够表达更加丰富的语义和知识。
Q.知识图谱有什么用?
问题:人工智能不够智能(e.g.马云对秘书说:中午帮我买肯德基)
人的视角:对于知识的理解和表达能力是非常强的
机器聪明是一样的道理,知识图谱可以让机器变得更聪明
Q.知识图谱怎么实现?
如何制作知识图谱?
1)获取知识:人类理解的知识制作成机器能理解的知识;
实体识别:类似于分类问题(时间、地点、任务)
关系抽取:找到实体或者说元素之间的联系(e.g.中国人学英语,只懂单词不懂意思)
总结:知识图谱是一种知识的表达形式,能够帮助机器变得更聪明,让人工智能更智能。
第一章,知识图谱的概述
总结
知识点
1. 知识图谱的起源
1945年,美国首任总统科学顾问Vannevar Bush曾提出了一个称为MEMEX的“记忆机器”的设想。他认为人的记忆偏重关联,而非像图书馆那样采用严格的层次分类目录组织大脑中的信息。因此,他提出设计一种Mesh关联网络来存储电子化的百科全书。
2. 语言与知识的关系
人工智能的流派——连接主义、符号主义
连接主义:主张人工智能的实现应该模拟人脑的生理结构,即用计算机模拟人脑的神经网络连接(深度神经网络);
符号主义:主张只能的实现应该模拟人类的心智,即用计算机符号记录人脑的记忆,表示人脑中的知识(知识工程与专家系统)。
认知智能——语言理解、知识的表示与处理。
知识工程与专家系统——建立一个系统,能够从专家大脑里获取知识,再通过一个推理引擎为非专家用户提供服务,如辅助诊断、判案等。而这个从人脑获取知识的过程就叫作知识工程。
通过机器来理解文本中的知识——抽取技术、语言预训练
抽取技术:例如从文本中识别实体、关系和逻辑等;
语言预训练:通过大量的文本语料训练一个神经网络大模型,文本中的知识被隐含在参数化的向量模型中,而向量化的表示和神金网络对机器是友好的。
知识图谱的本质——旨在利用图结构建模、识别和推断事物之间的复杂关联关系和沉淀领域知识
随着表示学习和神经网络的兴起,人们发现数值化的向量表示更易于捕获那些隐藏的、不易于明确表示的知识,并且比符号表示更易与机器处理。知识图谱同时拥抱机器的符号表示和向量表示,并能将两者有机地结合起来,解决搜索、问答、推理和分析等多方面的问题。
3. 知识图谱的技术内涵
知识图谱核心的技术基因——知识的视角、图的视角
知识的视角:来源于传统AI的知识表示和推理领域,关心怎么表示概念和实体,怎样刻画它们之间的关系,怎样进一步表示公理、规则等更加复杂的知识。
图的视角——来源于知识图谱的互联网基因,关心图中的节点、边、链接、路径、子图结构,怎样存储大规模的图数据,怎样利用图的结构对图数据进行推理、挖掘与分析等。
技术栈——表示、存储、抽取、融合、推理、问答、分析
表示:属性图表示、RDF图模型、OWL本体表示、规则知识建模
存储:关系数据库存储、原生图存储、图查询语言
抽取:从文本中抽取概念、识别实体、抽取三元组和事件
融合:实现本体映射和概念匹配、实例层的实体对齐
推理:基于传统符号逻辑的推理技术、基于表示学习和神经网络的推理技术
分析:传统的图算法、利用图嵌入、图神经网络等技术对知识图谱数据进行深度挖掘和分析
others:知识图谱的众包技术、计算机视觉领域的Scene Graph的构建、Semantic IoT
第二章,知识图谱的表示
总结
知识点
2.1什么是知识表示
知识表示——用易于计算机处理的方式来描述人脑知识的方法
符号表示与向量表示
符号表示:主要缺点是不易于刻画隐式的知识,同时因为推理依赖于知识描述的精确性,比如一个字符串表示稍有错误就无法完成推理,因而传统的符号人工智能研究的很多推理机都没有得到大规模的实用;
向量表示:好处是易于捕获隐式的知识,还可以将推理过程转化为向量、矩阵或张量之间的计算。缺点是丢失了符号表示的可解释性
2.2人工智能历史发展长河中的知识表示
描述逻辑——一阶谓词逻辑的可判定子集,主要用于描述本体概念和属性,对于本体知识库的构建提供了便捷的表达形式。核心要素包括:概念(Concepts)、关系(Relations)、个体(Individuals)。一个由描述逻辑实现的知识库通常包括两个部分。即:TBox和ABox,TBox包含内涵知识,用于描述概念的一般性质。ABox包含外延知识,描述领域中的特定个体。
霍恩规则逻辑——也是一阶谓词逻辑的子集,主要特点是表达形式简单、复杂度低,易于描述规则性知识(如Prolog),核心表达要素:原子(Atom)、规则(Rules)、事实(Facts)。
这类以谓词逻辑为基础的知识表达方式的主要优点是接近自然语言,易于表示精确知识,易于精确实现,主要缺点是无法表达不确定性知识。
产生式系统——专家系统多数是基于产生式系统,核心表达式是 IF P THEN Q CF = [0,1],其中P是产生式的前提,Q是一组结论或操作,CF(Certainty Factor)为确定性因子,也称置信度。
自然性:采用了人类 常用的表达因果关系的知识表示形式
模块性:产生式系统中的规则形式相同,易于模块化管理
有效性:能表示确定性知识、不确定知识、启发性知识、过程性知识等
清晰性:产生式有固定的格式
缺点:效率不高、不能表达结构性知识。
框架系统——认为人们对现实世界中事物的认识都是以一个类似于框架的的机构存储在记忆中,当面临一个新事物时,就从记忆中找出一个合适的框架,并根据实际情况对其细节加以修改、补充,从而形成对当前事物的认识。(和面向对象的思想比较像)。
优点:对知识的描述比较全面和完整、知识库的质量也比较高、允许数值计算;
缺点:维护成本高、质量要求高、表达形式不灵活。
语义网络——一种结构化的知识表示方法
优点:与自然语言的转换比较容易实现
缺点:没有公认的形式表达体系
总结
这些方法有一个共同的缺点——知识的获取过程主要依靠专家和人工,越复杂的知识表示框架,知识获取越困难。
2.3知识图谱的符号表示方法
属性图
属性图是由顶点(Vertex)、边(Edge)、标签(Label)、关系类型和属性(Property)组成的有向图,顶点也成为节点(Node),边也称为关系(Relationship),在属性图中,节点和关系边是最重要的表达要素,节点上包含属性,属性可以以任何键值形式存在。
优点:表达方式非常灵活
缺点:缺乏工业标准规范的支持
RDF图模型
基本组成单元是一个三元组,即(s,p,o),多个三元组头尾相互连接,就形成了一个RDF图
OWL本体语言
OWL在RDF的基础上增加了更多的语义表达构件
总结
属性图是工业界最常用的图谱构件方法,对比如下:
属性图——利用图结构特点做了性能优化,实用度高,但是不支持推理
RDF——更严格的语义逻辑基础,支持推理,并兼容OWL
OWL——提供了更多的语义表达构件
2.4知识图谱的向量表示方法
词向量
传统的如one-hot Encoding的空间消耗比较大,且无法有效地表示词的语义。分布式语义,大概意思就是词的语义可以由它的上下文来确定,通过捕获词的上下文进行分析语义。
实体向量
应该是把三元组的中的实体类比成词
学习模型
TransE:给定一个三元组<h,r,t>,事实存在,则h+r=t.(加法、向量)
DistMult:给定一个三元组<h,r,t>,事实存在,则h*r=t.(乘法、r是矩阵)
第三章,知识图谱的存储与查询
总结
原生图存储在复杂关联查询和图计算方面有性能优势,非原生图存储兼容已有工具集,通常学习和协调成本会低,其次,需要区分RDF图存储和属性图存储:RDF存储一般支持推理,属性图存储通常具有更好的图分析性能优势,此外,在大规模处理情况下,需要考虑与底层大数据存储引擎和上层图计算引擎集成需求
知识点
3.1基于关系数据库的知识图谱存储
分类——基于关系数据库的、基于原生图的
相关的问题
①存储的物理结构;
②存储的性能问题;
③图的查询问题;
存储方法
直接存三元组:利用关系数据库,只建一张包含(Subject,Predicate,Pbject)三列的表,然后把所有的三元组存入其中,优点是方法简单,缺点是查询效率很低
属性表(Property Tables):以实体类型为中心,把属于同一个实体类型的属性组织为一个表,即属性表进行存储,不过还是基于关系数据库的。缺点是会产生很多空值
二元表:对三元组按属性分组,并为每个属性在关系数据库中建立一个包含(Subject,Object)两列的表,缺点是Insert性能损耗高,对subject-subject-join操作性能好,但是对subject-object-join性能就比较差了
基于全索引结构:仅维护一张包含(subject,predicate,object)的三列表,增加了很多的优化手段,例如:三元表中不再存储真实的字符串,而是只存储对应的数字ID
总结
基于关系数据库的直接的好处是可以充分利用关系数据库本身的存储和优化功能,因而在现实的知识图谱中仍然被广泛采用,但是原生图数据库逐渐成为了知识图谱存储的主要解决方案。
3.2基于原生图数据库的知识图谱存储
关系模型的局限性——背离了用接近自然语言的方式来描述客观世界的原则,这使得概念化、高度关联的世界模型与数据的物理存储之间出现了失配
图数据库——将一张图表示为一个邻接列表,即将相邻关系表示成邻接关系,再基于这个邻接关系表建立索引,优化图的查询。好处:自然表达、易于扩展、复杂关联表达
属性图——是图数据库Neo4J实现的图结构表示模型,优点是表达方式非常灵活,例如,它允许为边增加属性,非常便于表示多元关系,同时在查询计算方面具有较高优势
查询语言
过程式查询语言需要严格地根据图的机构精确定义查询语义
描述性查询语言重在刻画查询本身的语义,通常还需要再经过一轮翻译,成为底层实际查询语言如SQL
什么时候使用原生图数据库
基于三个原则:
①高性能的关系查询
②模型的灵活性
③复杂图分析需求
3.3原生图数据库实现原理浅析
免索引邻接——为每个节点维护了一组指向其相邻节点的引用,这组引用本质上可以看作是相邻节点的微索引(Micro Index)
Neo4J——核心的实现是两个文件:节点存储文件、关系边存储文件
节点和关系边的存储处理
知识图谱中的节点存储于独立的“节点存储文件”,每个节点的存储空间固定,便于直接通过ID编号计算获得访问地址,查询成本为O(1),特别指出,节点的属性数据(如姓名、年龄等)是分开存储的,节点之存储其第一个属性边的ID,关系边也类似,存储于“关系边存储文件”
属性图与RDF图存储的比较
一般而言,如果应用场景重图结构和查询分析,属性图会更适合一些,如果应用场景重知识建模,特别是要求描述和表达复杂的关联关系且有知识推理要求,采用RDF图模型会更适合一些
第四章,知识图谱的获取与构建
总结
知识点
知识工程发展历史
早期的知识工程以符号主义为核心思想
人工智能源于数理逻辑
智能的本质是符号的操作和运算
传统知识工程的特点
规模小
成本高
知识汤
数据凡在,重点是需要人工干预
知识图谱工程
从关系数据库获取知识
从视觉数据获取知识
事件抽取
总结
知识图谱不等于专家系统,知识图谱就是新一代的知识工程
知识抽取-实体识别与分类
知识抽取中的实体识别任务。实体识别是知识图谱构建的一个基础性工作,也是进一步实现关系抽取、事件抽取等更加复杂知识结构抽取的前提条件
从文本中识别实体边界及其类型
实体识别的常用方法
基于HMM的实体识别
基于模板和规则
缺点
需要大量的语言学知识
·需要谨慎处理规则之间的冲突问题
·构建规则的过程费时费力、可移植性不好
基于序列标注的方法
基于CRF的实体识别
基于深度学习的实体识别
ChatGPT就是一个典型
总结
实体识别仍面临着标签分布不平衡,实体嵌套等问题,制约了现实应用:
中文的实体识别面临一些特有的问题,例如:中文没有自然分词、用字变化多简化表达现象严重等等;
实体识别是语义理解和构建知识图谱的重要一环,也是进一步抽取三元组和关系分类的前提基础。
知识抽取技术前沿
少样本知识抽取
容易受到噪声干扰
基于混合注意力原型网络的少样本关系抽取
基于实体关系原型网络的少样本知识抽取
零样本知识抽取
基于可见标注数据集及可见标签集合学习并预测不可见数据集结果
方法
转换问题设定
学习输入特征空间到类别描述的语义空间的映射
基于阅读理解的零样本关系抽取
将零样本关系抽取问题转换成阅读理解
。已知实体对中的一个实体以及它们之间的关系,去抽取另一个实体
基于规则引导的零样本关系抽取
终身知识抽取
基于表示对齐的终身关系抽取
如何避免灾难性遗忘
对齐句子表示,减少向量变化
总结
举一反三,面对低资源少样本场景,我们需要更加智能的少样本零样本知识抽取方法
与时俱进知识是不断变化的,我们需要能够终身学习知识的框架
第五章,知识图谱推理
总结
知识点
什么是推理
推理指的是从已知事实(Known Facts)来推断得出新的事实(New Facts)的过程。
推理分类
演绎
一种Top-down Logic,在日常思维过程中经常被用到
归纳
通过观察客观事实进而总结和归纳抽象知识的推理过程
溯因
一个问题即可解释的问题
类比
寻找类似的解决方案来解决面临的新问题
机器推理
基于描述逻辑的推理
自然语言推理
视觉推理
知识图谱上的推理
演绎推理
基于本体公理的知识图谱推理
基于图结构与规则学习的知识图谱推理
基于表示学习的知识图谱推理
基于图神经网络的知识图谱推理
第六章,知识图谱融合
基于规则的推理、基于本体的推理和基于机器学习的推理等方法,介绍了推理与查询、推理与推荐、推理与决策等方面的应用,并展望了推理技术在未来的发展趋势。
第七章,知识图谱问答
1. 知识图谱问答的基本过程
自然语言问题理解、图谱查询生成、查询执行和答案生成等四个阶段,作者通过具体的案例和实例,详细地介绍了这个过程。
2. 自然语言问题理解
问题分类、实体识别、关系识别、问题解析等几个方面。作者介绍了当前自然语言处理的一些基本技术,并且给出了具体的案例来说明。
3. 图谱查询生成
基于模板、基于逻辑、基于语义等几种方法。作者通过比较不同方法的优缺点,介绍了当前主流的查询生成技术。
4. 查询执行
查询优化、查询扩展、答案抽取等几个方面。作者介绍了当前查询执行的一些技术和策略,以及如何优化查询性能和提高答案准确度。
5. 答案生成:
直接答案、排名答案、解释答案等几种方式。作者介绍了当前答案生成的一些技术和策略,以及如何根据用户需求和偏好生成合适的答案。
第八章,图算法和图数据分析
1. 图算法概述:包括基本概念、图的表示方法、图的遍历算法、图的搜索算法等。
2. 图数据分析:包括社区检测、节点重要性分析、图结构分析等方面。作者介绍了每种分析方法的原理、算法和应用场景,并给出了具体的案例和实例来说明。
3. 图数据库:介绍了常见的图数据库和它们的特点、优缺点等。
4. 图算法在知识图谱中的应用:包括推荐系统、搜索引擎、知识发现等方面。作者介绍了每种应用场景的实际应用案例,并讨论了图算法在这些场景中的应用。
第九章,知识图谱技术发展
总结
蕴含知识的原始数据都可以作为知识图谱构建的数据来源
多种模态的数据也可以被用来增强知识图谱
实体链接技术可以增强对多模态数据的分类、检索和识别等能力
知识点