导图社区 知识图谱融合
这是一份关于领域知识图谱的构建技术流程的思维导图。主要讲述了领域知识建模、知识存储、知识抽取、知识应用、知识计算和知识融合的知识内容。能让你更快速的去了解学习
编辑于2021-07-08 17:02:44知识图谱融合
输入知识库
RDF/OWL
SPARQL
预处理
匹配
本体匹配
语言学特征
字符串比较
I-Sub(edit-based)
Commonality:Biggest common substring between two string
Difference:Length of unmatched strings resulted from initial matching step
Winkler:
TF-IDF(token-based)
TF词频
IDF逆文档频率
score=TF*IDF
Soft TF-IDF(混合)
向量空间模型
VDoc
I. 虚拟文档是为了描述概念特点而建立起来的文档,为每一个节点构建虚拟文档
II. 本体中每一个实体(节点)的描述信息(语言学特征)通过该节点的虚拟文档表示
III. ∴两个本体中实体的相似度可通过计算与之对应的两虚拟文档之间的相似度而得到,即虚拟文档之间的相似度就是实体之间的相似度
字典或词典
wordnet-Based
前提:动词、名词、形容词、副词各自被组织成一个同义词网络
edge-based,距离越近越相似
Information-based Statistics Methods,共有信息量越多,越相似
结构特征
路径结构
Anchor-PROMPT
I. 已知Anchor集合中包含(A,B)和(H,G)两组已配对术语
II. A与H之间存在一条长度为3的路径,B与G之间存在一条长度为3的路径
III. 那么这两条路径上对应的术语对(C,D)与(D,F)可能存在相似性
图结构
Similarity flooding
I. G1= SQL2Graph(S1);G2= SQL2Graph(S2)
本体成图G1,G2
II. initialMap = StringMatch(G1,G2);
用字符串匹配做为初始匹配,主要是比较通常的前缀和后缀,这样的结果通常是不准确的
III. product = SFJoin(G1,G2, initialMap);
SF假设:两个Nodes越相似,他的邻居就越相似
经过的迭代后,这种相似度会传遍整个图
I. EmpName Vs Pname
II. Personnel/Pname VS Employee/EmpName
III. Personnel/Pname/string VS Employee/EmpName/nvarchar
IV. ∴string≈varchar
V. ∴Personnel/Dept vs Department/DeptName > Personnel/Dept VS Department/DeptNo(int)
IV. result = SelectThreshold(product);
基于product筛选出the‘most plausible‘matching entries.
外部资源
实例数据
GLUE
基于实例数据的机器学习
Relaxation Labeling
learners
Name Learner
Content learner
Metea learner
联合概率分布
搜索引擎
Google-based
其他本体
HCONE-merge
lexical semantic indexing (LSI) 词汇语义标签
字典或词典
wordnet-Based
逻辑推理
可满足性验证
LogMap
I. 标签每一个本体类和词法变量&用interval labelling schema表示extended class hierarchy
II. 通过词法变量初步计算anchor mappings
III. repair 和discover 循环
用推理算法去发现不想要的逻辑,其会被贪心诊断算法自动修复
通过ISUB计算出新的Mapping部分
IV. 循环至no context is expanded in the discovery step.
V. 新的mapping和2个本体的重叠部分
其他本体
HCONE-merge
实体对齐
(解释:是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。 实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐。)
传统实体对齐方法
等价关系推理
same as relation(S)
I. ∵<S,same as,O>
II. ∴<S,O>∈S,<O,S>∈S
inverse functional property(I)
I. ∵<s1,foaf:mbox,o>,<s2,foaf:mbox,o>
II. ∴<s1,s2>∈I,<s2,s1>属于I
III. If a property is declared to be inverse-functional, then the object of a property statement uniquely determines the subject (some individual).
functional property(F)
A functional property is a property that can have only one (unique) value y for each instance x.
Cardinality relation
略
Equivalence relation
略
https://www.w3.org/TR/2004/REC-owl-ref-20040210/
相似度计算
Silk
https://hub.docker.com/r/silkframework/silk-workbench docker run -d --name silk-workbench -p 80:80 silkframework/silk-workbench:latest
Indexing
Similarity metrics
string
numeric
Aggregation
Geographic
Transformation functions
基于表示学习的方法
I. 基于OWL构建语义相关的URIs kernel
sameAs
InverseFunctionalProperty
FunctionalProperty
cardinality
maxCardinality
II. 从i中学习有区别的属性值pairs
i. 标记相关的URIs
ii. 抽取2个URIs的属性值pairs
iii. 用I-sub去匹配相似度
iv. (如果超过某个值)则判断他们相似
v. 在a set of 相关的URIs中挑选出最匹配的pairs
vi. 这一对pairs将用来找更多的相关的URIs
III. 基于常用组合属性选择属性
例如经度和纬度
成对实体对齐
Magellan
Random forest + various literal similarities
Use various similarity functions to generate features
Use random forest to learn several decision trees
DeepMatcher
https://www.cnpython.com/pypi/deepmatcher
更适合文本数据(准确率高6.2-32.6%),但是经常更加费时
集体实体对齐
基于聚类的集体实体对齐
I. 每次迭代计算聚类相似度
公共邻居
Jaccard coefficient
Adar相似度
II. 把最相似的两个聚合
基于Markov Logic Network集体实体对齐
大规模实体对齐
SIGMA(simple greedy Matching)
align knowledge bases with millions of entities with over 98% precision and 90% F-measure in less than two hours
子主题
PARIS
aligns not only instances, but also relations and classes(90%的精确率)
-----------------
前提假设aligns not only instances, but also relations and classes(90%的精确率)
两个实例如果有多个相同的属性对,那么这两个可能是一个实体
某些具体的属性(谓语)或值(宾语)能够帮助消歧(无论是对齐还是区分)
概念
本体
r{x,y};
等价
在同一个本体中,不存在等价元素,等价元素只能在不同的本体中出现
关系的函数
对于函数,可以存在多对一,但不会存在一对多甚至多对多
If r is a function and if r(x, y) in one ontology and r(x, y0 ) in another ontology, then y and y0 must be equivalent
关系的函数性函数
函数虽然可以作为实体对其时候的一个判断依据,但太过绝对
I. 本体中存在许多的错误,单纯用函数容错性很低
II. 即使本体中的一些实体不存在函数,仍然有一些本体是等价的可以对齐的,如关系r是一对多的情况
III. 因此,我们提出对一个关系的函数性的度量函数fun,它的值域是0-1,用于衡量一个关系作为函数是否严谨的程度
是XXX国的公民,fun(公民,x)=1
但是多国籍的人,fun会等于二分之一或者更小
IV. 全局函数性
概率模型
实体对齐
两个本体都拥有关系r
(x,y)(x',y')中y=y'
fun的值尽可能大,如果r是高度反函数
转化成概率模型后:
两个 y 等价的概率越高,且关系 r 的反函数性越高,则两个 x 等价的概率越高;反函数性越低,则越对其等价的概率没有影响
实体非对齐情况
概率模型为:
关系 r的函数性越高,两个 y 等价的概率越高,两个 x 等价的概率越高。
所以最后他对齐的概率为:
子关系
略
=
子类
略
优点与不足
优点
1. 没有使用任何参数
2. 一次性对齐所有要素
3. 算法性质优良,基本适合任意两个本体之间的计算,并能取得较好结果
不足
1. 目前不能处理结构相异(structural heterogeneity)的本体
2. 同理,如果两个本体之间粒度差异太大,也不能得到很好的处理
3. 同理,如果将相同的文本一个处理为实体,另一个处理为字符串(?不是很懂),也不能得到很好的处理
基于embedding的对齐方法
基于翻译模型
翻译模型
TransE
MTransE
自训练
BootEA
候选对齐标记和编辑
当累计不同迭代轮产生的新标记对齐时,可能存在标记冲突
加属性
JAPE
Joint Attribute-Preserving Embedding
加取值
AttrE
多视图
MultiKE
KG中常常有多种特征
当前基于embedding的实体对齐方法只会考虑1到2种
文字embedding
名称视图embedding
关系视图embedding
属性视图embedding
平均不同视图的概要
导出一个从每个特定视图嵌入空间到到共享空间的矩阵
参与多视图嵌入的联合训练
路径
RSN
motivation
KG 表示学习侧重于三元组学习
表达能力低
比如说 A born in B 这样的关系, 如果 A 是比较不重要的词, 那么与同一个B有这样关系的entities之间实际没什么差距.
long-tail entities, 这个针对于 出现次数比较少的entity, 这样的话, entity 被学习的次数会很少, 这样的话很难学得比较有价值的向量.
信息传播不充分
由于 entity 之间的语义关系需要用 relation 做架桥, 所以很难进行信息传递.
方法
Random walk
基于 KG 的 random walk 就是将entity 和 Relation都当做词汇, 利用 KG 生成 corpus.
RSN
模仿 RNN 对语料库学习词向量的方法, 使用针对利用KG 生成的corpus而设计的 RSN分别学习 entity 和 relation 的 "词向量".
在预测entity的时候, 不只使用前面的 relation 信息, 还使用 前面的 entity 信息
Corss-KG RSN
基于神经网络
GCN-Align
使用GCN将不同语言的实体嵌入到统一的向量空间中
假设
等价的实体通常具有相似的属性
等价的实体的相邻实体也往往等价
MuGNN
I. KG Completion
通过补全缺失的关系来缓解结构的差异
i. 通过规则挖掘器**AMIE+**分析出规则
ii. 基于KG间的种子对齐关系在不同的KG中转移规则
规则能转移基于的假设是:知识可以泛化到不同的KG,不管KG是何种语言或什么领域。
II. Multi-channel Graph Neural Network
i. 关系加权
其根据两种模式(自注意力和跨KG注意力)生成对应的关系权限,每个类型的注意力机制对应一个GNN通道,这些通道在KGs中共享参数实现结构知识转移。
ii. GNN编码器
对图结构进行编码,通过其邻居结点来优化实体嵌入,这样对齐的种子对信息可以在整个图中传播。
iii. 对齐模块
通过使种子实体对的嵌入尽可能相同这一原则,会将两个KGs嵌入到同一空间中去。
RDGCN
现有的实体对齐工作无法正确获取在多关系KG中常见的复杂关系信息
子主题
构造对偶关系图
将G1,G2 放在一起作为原始图
vertex等于the union of all vertices in G1,G2
边等于is the union of all edges/triples in G1,G2
给定原始图Ge,其对偶关系图为:
对于Ge中的每种关系r ,都有顶点
所以
如果两种关系ri和rj在Ge有相同的head或者tail实体
在Gr中创建边链接节点
出于期望对偶关系图中的节点更具表达性,根据共享 head、tail 实体的情况,为对偶关系图中的边 定义权重 :
H,T对应关系的 head 实体集合和 tail 实体集合,构造对偶图的开销与原始图中的关系类型的数量成比例。
对偶注意力层和原始注意力层的Interactions
对偶注意力层
为输入 KG 的对偶顶点表示矩阵,其中每一行对应对偶关系图中的一个顶点。利用原始注意力层产生的原始节点特征计算对偶注意力分数
原始注意力层
为输入 KG 的原始顶点表示矩阵,对于原始 KG 中的实体
合并结构信息
在对偶关系图和原始图之间进行多轮交互之后,能够从原始图中收集关系感知的实体表示。接下来,应用带有高速路神经网络门控的双层 GCN 来进一步合并来自邻居的结构信息。
在每一层GCN层l中,输入实体为X(l),输出为X(l+1)
对齐
考虑两个实体之间的距离作为对齐分数
训练
训练时,期望对齐的实体对之间的距离尽可能近,而负实体对之间的距离尽可能远,因此利用基于边缘的评分函数作为目标:
实验结果
对比:
知识融合
voting/averging
取大多数source的值
取平均值
Unsupervised
迭代模型
TruthFinder
数据源s的置信度
事实f的置信度
ACCU
value probability
source accuracy
source vote count
value vote count
2-Estimate
假设,每一个entry有且只有一个真值
如果一个source提供一个entry的观测值,那么我们人定这个source voteagainst 不同的观测值
3-Estimates
基于2-Estimate考虑了获取entry的真值的难度,estimation或影响源的权重
Investment
源在它提供的观测值上,均匀地“投资”他的可信度;然后收取 credits back from the confidence of those observations.
观测值的可信度根据一个非线性的函数(基于投资的可信度之和)增长
PooledInvestment
The only difference is that the confidence of an observation is linearly scaled instead of non-linearly scaled.
优化模型
CRH
思路
可靠的source提供值得信任的观察
∴对于可靠的source来说,真相应与观察很接近
所以最小化多源的truths的加权偏差(权重是源的可信度)
类别数据
连续数据
truths 计算
最小化truths和数据源提供的取值之间的加权距离
数据源质量估计
基于真值和数据源观测值的差异,给每个数据源分配一个权重
对比
概率图模型
LTM(Latent Truth Model)
用贝叶斯网络基于source trustworthiness,fact truthfulness,claims from sources建模
贝叶斯网络
GTM(GAUSSIAN TRUTH MODEL)
(Semi-)supervised
SLiMFast
模型
Compilation
uses a factor graph representation to encode the above logistic regression model.
优化器
当有足够的ground truth时,使用经验风险最小化(ERM)来计算其逻辑回归模型的参数
当ground truth不够时,使用期望最大哎计算使数据源观测似然最大的参数Ω
输出结果
人机交互
标注
外部资源
字、词典 (WordNet)
常识知识(Cyc)
实时知识(google)
配置