导图社区知识图谱融合

知识图谱融合

这是一份关于领域知识图谱的构建技术流程的思维导图。主要讲述了领域知识建模、知识存储、知识抽取、知识应用、知识计算和知识融合的知识内容。能让你更快速的去了解学习

编辑于2021-07-08 17:02:44

知识图谱

ToMaTo_J

他的近期作品查看更多>>

知识图谱融合
这是一份关于领域知识图谱的构建技术流程的思维导图。主要讲述了领域知识建模、知识存储、知识抽取、知识应用、知识计算和知识融合的知识内容。能让你更快速的去了解学习
Human History
从Guns germs and steel中归纳的人类发展时间轴。人类历史指人类产生和发展的历史，随着科学技术的发展和古人类化石的发现，不断演化。分为史前史和文明史。

知识图谱融合

社区模板帮助中心，点此进入>>

ToMaTo_J

他的近期作品查看更多>>

相似推荐
大纲

安全教育的重要性
- 6.7k
- 893
- 98
- 18
issen
个人日常活动安排思维导图
- 7.3k
- 0
- 80
- 1
少儿栏目外景策划波波老师
西游记主要人物性格分析
- 15.5k
- 1.4k
- 639
- 105
issen
17种头脑风暴法
- 201.0k
- 4.0k
- 11.7k
- 4.0k
MindMaster
如何令自己更快乐
- 2.5k
- 27
- 98
- 6
wxb
头脑风暴法四个原则
- 1.9k
- 194
- 69
- 5
issen
思维导图
- 19.7k
- 2.4k
- 449
- 80
Jason
第二职业规划书
- 2.9k
- 3
- 68
- 0
~九梦离殇~
记一篇有颜又有料的笔记-by babe
- 720
- 9
- 32
- 3
橘大喵
伯赞学习技巧
- 791
- 17
- 47
- 9
安浪

知识图谱融合

输入知识库

RDF/OWL

SPARQL

预处理

匹配

本体匹配

语言学特征

字符串比较

I-Sub（edit-based）

Commonality：Biggest common substring between two string

Difference:Length of unmatched strings resulted from initial matching step

Winkler：

TF-IDF(token-based)

TF词频

IDF逆文档频率

score=TF*IDF

Soft TF-IDF（混合）

向量空间模型

VDoc

I. 虚拟文档是为了描述概念特点而建立起来的文档，为每一个节点构建虚拟文档

II. 本体中每一个实体(节点)的描述信息(语言学特征)通过该节点的虚拟文档表示

III. ∴两个本体中实体的相似度可通过计算与之对应的两虚拟文档之间的相似度而得到，即虚拟文档之间的相似度就是实体之间的相似度

字典或词典

wordnet-Based

前提：动词、名词、形容词、副词各自被组织成一个同义词网络

edge-based，距离越近越相似

Information-based Statistics Methods，共有信息量越多，越相似

结构特征

路径结构

Anchor-PROMPT

I. 已知Anchor集合中包含(A,B)和(H,G)两组已配对术语

II. A与H之间存在一条长度为3的路径，B与G之间存在一条长度为3的路径

III. 那么这两条路径上对应的术语对(C,D)与(D,F)可能存在相似性

图结构

Similarity flooding

I. G1= SQL2Graph(S1);G2= SQL2Graph(S2)

本体成图G1,G2

II. initialMap = StringMatch(G1,G2);

用字符串匹配做为初始匹配，主要是比较通常的前缀和后缀，这样的结果通常是不准确的

III. product = SFJoin(G1,G2, initialMap);

SF假设：两个Nodes越相似，他的邻居就越相似

经过的迭代后，这种相似度会传遍整个图

I. EmpName Vs Pname

II. Personnel/Pname VS Employee/EmpName

III. Personnel/Pname/string VS Employee/EmpName/nvarchar

IV. ∴string≈varchar

V. ∴Personnel/Dept vs Department/DeptName ＞ Personnel/Dept VS Department/DeptNo（int）

IV. result = SelectThreshold(product);

基于product筛选出the‘most plausible‘matching entries.

外部资源

实例数据

GLUE

基于实例数据的机器学习

Relaxation Labeling

learners

Name Learner

Content learner

Metea learner

联合概率分布

搜索引擎

Google-based

其他本体

HCONE-merge

lexical semantic indexing (LSI) 词汇语义标签

字典或词典

wordnet-Based

逻辑推理

可满足性验证

LogMap

I. 标签每一个本体类和词法变量&用interval labelling schema表示extended class hierarchy

II. 通过词法变量初步计算anchor mappings

III. repair 和discover 循环

用推理算法去发现不想要的逻辑，其会被贪心诊断算法自动修复

通过ISUB计算出新的Mapping部分

IV. 循环至no context is expanded in the discovery step.

V. 新的mapping和2个本体的重叠部分

其他本体

HCONE-merge

实体对齐

(解释：是指对于异构数据源知识库中的各个实体，找出属于现实世界中的同一实体。实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐。)

传统实体对齐方法

等价关系推理

same as relation（S）

I. ∵<S,same as,O>

II. ∴<S,O>∈S，<O,S>∈S

inverse functional property（I）

I. ∵<s1,foaf:mbox,o>,<s2,foaf:mbox,o>

II. ∴<s1,s2>∈I，<s2,s1>属于I

III. If a property is declared to be inverse-functional, then the object of a property statement uniquely determines the subject (some individual).

functional property（F）

A functional property is a property that can have only one (unique) value y for each instance x.

Cardinality relation

略

Equivalence relation

略

https://www.w3.org/TR/2004/REC-owl-ref-20040210/

相似度计算

Silk

https://hub.docker.com/r/silkframework/silk-workbench docker run -d --name silk-workbench -p 80:80 silkframework/silk-workbench:latest

Indexing

Similarity metrics

string

numeric

Aggregation

Geographic

Transformation functions

基于表示学习的方法

I. 基于OWL构建语义相关的URIs kernel

sameAs

InverseFunctionalProperty

FunctionalProperty

cardinality

maxCardinality

II. 从i中学习有区别的属性值pairs

i. 标记相关的URIs

ii. 抽取2个URIs的属性值pairs

iii. 用I-sub去匹配相似度

iv. （如果超过某个值）则判断他们相似

v. 在a set of 相关的URIs中挑选出最匹配的pairs

vi. 这一对pairs将用来找更多的相关的URIs

III. 基于常用组合属性选择属性

例如经度和纬度

成对实体对齐

Magellan

Random forest + various literal similarities

Use various similarity functions to generate features

Use random forest to learn several decision trees

DeepMatcher

https://www.cnpython.com/pypi/deepmatcher

更适合文本数据（准确率高6.2-32.6%），但是经常更加费时

集体实体对齐

基于聚类的集体实体对齐

I. 每次迭代计算聚类相似度

公共邻居

Jaccard coefficient

Adar相似度

II. 把最相似的两个聚合

基于Markov Logic Network集体实体对齐

大规模实体对齐

SIGMA（simple greedy Matching）

align knowledge bases with millions of entities with over 98% precision and 90% F-measure in less than two hours

子主题

PARIS

aligns not only instances, but also relations and classes（90%的精确率）

-----------------

前提假设aligns not only instances, but also relations and classes（90%的精确率）

两个实例如果有多个相同的属性对，那么这两个可能是一个实体

某些具体的属性（谓语）或值（宾语）能够帮助消歧（无论是对齐还是区分）

概念

本体

r{x,y};

等价

在同一个本体中，不存在等价元素，等价元素只能在不同的本体中出现

关系的函数

对于函数，可以存在多对一，但不会存在一对多甚至多对多

If r is a function and if r(x, y) in one ontology and r(x, y0 ) in another ontology, then y and y0 must be equivalent

关系的函数性函数

函数虽然可以作为实体对其时候的一个判断依据，但太过绝对

I. 本体中存在许多的错误，单纯用函数容错性很低

II. 即使本体中的一些实体不存在函数，仍然有一些本体是等价的可以对齐的，如关系r是一对多的情况

III. 因此，我们提出对一个关系的函数性的度量函数fun，它的值域是0-1，用于衡量一个关系作为函数是否严谨的程度

是XXX国的公民，fun（公民,x）=1

但是多国籍的人，fun会等于二分之一或者更小

IV. 全局函数性

概率模型

实体对齐

两个本体都拥有关系r

（x,y）(x',y')中y=y'

fun的值尽可能大，如果r是高度反函数

转化成概率模型后：

两个 y 等价的概率越高，且关系 r 的反函数性越高，则两个 x 等价的概率越高；反函数性越低，则越对其等价的概率没有影响

实体非对齐情况

概率模型为：

关系 r的函数性越高，两个 y 等价的概率越高，两个 x 等价的概率越高。

所以最后他对齐的概率为：

子关系

略

子类

略

优点与不足

优点

1. 没有使用任何参数

2. 一次性对齐所有要素

3. 算法性质优良，基本适合任意两个本体之间的计算，并能取得较好结果

不足

1. 目前不能处理结构相异（structural heterogeneity）的本体

2. 同理，如果两个本体之间粒度差异太大，也不能得到很好的处理

3. 同理，如果将相同的文本一个处理为实体，另一个处理为字符串（？不是很懂），也不能得到很好的处理

基于embedding的对齐方法

基于翻译模型

翻译模型

TransE

MTransE

自训练

BootEA

候选对齐标记和编辑

当累计不同迭代轮产生的新标记对齐时，可能存在标记冲突

加属性

JAPE

Joint Attribute-Preserving Embedding

加取值

AttrE

多视图

MultiKE

KG中常常有多种特征

当前基于embedding的实体对齐方法只会考虑1到2种

文字embedding

名称视图embedding

关系视图embedding

属性视图embedding

平均不同视图的概要

导出一个从每个特定视图嵌入空间到到共享空间的矩阵

参与多视图嵌入的联合训练

路径

RSN

motivation

KG 表示学习侧重于三元组学习

表达能力低

比如说 A born in B 这样的关系, 如果 A 是比较不重要的词, 那么与同一个B有这样关系的entities之间实际没什么差距.

long-tail entities, 这个针对于出现次数比较少的entity, 这样的话, entity 被学习的次数会很少, 这样的话很难学得比较有价值的向量.

信息传播不充分

由于 entity 之间的语义关系需要用 relation 做架桥, 所以很难进行信息传递.

方法

Random walk

基于 KG 的 random walk 就是将entity 和 Relation都当做词汇, 利用 KG 生成 corpus.

RSN

模仿 RNN 对语料库学习词向量的方法, 使用针对利用KG 生成的corpus而设计的 RSN分别学习 entity 和 relation 的 "词向量".

在预测entity的时候, 不只使用前面的 relation 信息, 还使用前面的 entity 信息

Corss-KG RSN

基于神经网络

GCN-Align

使用GCN将不同语言的实体嵌入到统一的向量空间中

假设

等价的实体通常具有相似的属性

等价的实体的相邻实体也往往等价

MuGNN

I. KG Completion

通过补全缺失的关系来缓解结构的差异

i. 通过规则挖掘器**AMIE+**分析出规则

ii. 基于KG间的种子对齐关系在不同的KG中转移规则

规则能转移基于的假设是：知识可以泛化到不同的KG，不管KG是何种语言或什么领域。

II. Multi-channel Graph Neural Network

i. 关系加权

其根据两种模式（自注意力和跨KG注意力）生成对应的关系权限，每个类型的注意力机制对应一个GNN通道，这些通道在KGs中共享参数实现结构知识转移。

ii. GNN编码器

对图结构进行编码，通过其邻居结点来优化实体嵌入，这样对齐的种子对信息可以在整个图中传播。

iii. 对齐模块

通过使种子实体对的嵌入尽可能相同这一原则，会将两个KGs嵌入到同一空间中去。

RDGCN

现有的实体对齐工作无法正确获取在多关系KG中常见的复杂关系信息

子主题

构造对偶关系图

将G1,G2 放在一起作为原始图

vertex等于the union of all vertices in G1,G2

边等于is the union of all edges/triples in G1,G2

给定原始图Ge，其对偶关系图为：

对于Ge中的每种关系r ，都有顶点

所以

如果两种关系ri和rj在Ge有相同的head或者tail实体

在Gr中创建边链接节点

出于期望对偶关系图中的节点更具表达性，根据共享 head、tail 实体的情况，为对偶关系图中的边定义权重：

H,T对应关系的 head 实体集合和 tail 实体集合，构造对偶图的开销与原始图中的关系类型的数量成比例。

对偶注意力层和原始注意力层的Interactions

对偶注意力层

为输入 KG 的对偶顶点表示矩阵，其中每一行对应对偶关系图中的一个顶点。利用原始注意力层产生的原始节点特征计算对偶注意力分数

原始注意力层

为输入 KG 的原始顶点表示矩阵，对于原始 KG 中的实体

合并结构信息

在对偶关系图和原始图之间进行多轮交互之后，能够从原始图中收集关系感知的实体表示。接下来，应用带有高速路神经网络门控的双层 GCN 来进一步合并来自邻居的结构信息。

在每一层GCN层l中，输入实体为X（l），输出为X（l+1）

对齐

考虑两个实体之间的距离作为对齐分数

训练

训练时，期望对齐的实体对之间的距离尽可能近，而负实体对之间的距离尽可能远，因此利用基于边缘的评分函数作为目标：

实验结果

对比：

知识融合

voting/averging

取大多数source的值

取平均值

Unsupervised

迭代模型

TruthFinder

数据源s的置信度

事实f的置信度

ACCU

value probability

source accuracy

source vote count

value vote count

2-Estimate

假设，每一个entry有且只有一个真值

如果一个source提供一个entry的观测值，那么我们人定这个source voteagainst 不同的观测值

3-Estimates

基于2-Estimate考虑了获取entry的真值的难度，estimation或影响源的权重

Investment

源在它提供的观测值上，均匀地“投资”他的可信度；然后收取 credits back from the confidence of those observations.

观测值的可信度根据一个非线性的函数（基于投资的可信度之和）增长

PooledInvestment

The only difference is that the confidence of an observation is linearly scaled instead of non-linearly scaled.

优化模型

CRH

思路

可靠的source提供值得信任的观察

∴对于可靠的source来说，真相应与观察很接近

所以最小化多源的truths的加权偏差（权重是源的可信度）

类别数据

连续数据

truths 计算

最小化truths和数据源提供的取值之间的加权距离

数据源质量估计

基于真值和数据源观测值的差异，给每个数据源分配一个权重

对比

概率图模型

LTM(Latent Truth Model)

用贝叶斯网络基于source trustworthiness，fact truthfulness，claims from sources建模

贝叶斯网络

GTM（GAUSSIAN TRUTH MODEL）

(Semi-)supervised

SLiMFast

模型

Compilation

uses a factor graph representation to encode the above logistic regression model.

优化器

当有足够的ground truth时，使用经验风险最小化（ERM）来计算其逻辑回归模型的参数

当ground truth不够时，使用期望最大哎计算使数据源观测似然最大的参数Ω

输出结果

人机交互

标注

外部资源

字、词典 (WordNet)

常识知识（Cyc）

实时知识（google）

配置