导图社区 第十三章知识图谱
这是一篇有关第十三章知识图谱的思维导图,从高质量词汇挖掘原因、步骤、方法、统计指标等方面进行了分析和概述。
这是一篇关于C Primer Plus 第七章编程练习的思维导图
计算机网络发展史计算机网络的发展过程大致可分为以下四个阶段: 第一阶段:以单个计算机为中心的远程联机系统,构成面向终端的计算机通信 网(20 世纪 50 年代) 第二阶段:多个自主功能的主机通过通
书籍C Primer Plus 第六章编程练习,便于理解课本,有助于期末考试复习和背诵。可收藏,亦可使用后补充知识点,完善属于自己的知识框架。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
第十三章 知识图谱2
高质量词汇挖掘
定义
领域词汇挖掘是指从给定的领域语料中自动挖掘属于该领域的高质量词汇的过程
高质量短语
高频率
一个N-Gram在给定的文档集合中要出现得足够频繁才能被视作高质量短语
一致性
N-Gram中不同单词的搭配是否合理或是否常见
信息量
一个高质量短语应该传达一定的信息,表达一定的主题或概念
完整性
一个高质量短语还必须在特定的上下文中是一个完整的语义单元
方法
基于规则
无监督
通过预定义的词性标签(POS Tag)规则来识别文档中的高质量名词短语
缺点
规则一般是针对特定领域手工设计的难以适用于其他领域。人工定义规则代价高昂,难以穷举所有的规则,因此召回率存在一定的局限性
有监督
利用标注好词性的语料来自动学习规则
依赖于领域的语料规则以及昂贵的人工标记,不适用于新兴的大型语料。另外词性标注不能做到百分百的准确,这会在一定程度上影响后续学习的准确性
基于统计学习
通过计算候选短语的统计指标特征从而给词汇打分、排序来进行领域词汇挖掘
根据人工或自动标注的高质量短语,建立高质量短语分类模型
使用wiki中存在的词条自动标注
步骤
基于无监督学习的领域短语挖掘
有监督学习
有监督+频次统计优化
原因
基于N-Gram的原始频次统计方法需要修正与优化,因为该统计下子短语的词频一定大于父短语
统计指标
TF-IDF(词频-逆文档频率)
一个词的重要程度与TF正相关,与IDF反相关
例子
"的"、"是"和"由于"等词汇过于普遍,不适合用来刻画该领域语料相关的特征
原理
如果某个短语在领域语料中频繁出现但是在外部文档中很少出现,则该短语很可能是该领域的高质量短语
作用
挖掘能够有效代表某篇文档特征的短语
C-value
优化词频
词频与长度决定候选短语质量,父短语的重复统计会带来频次估计的偏差
一般而言,在很多专业领域越长的短语越有可能是专业名词,从而极可能是高质量短语
考虑了短语与其父短语的关系来挖掘高质量短语
NC-value
在C-value的基础上更进一步考虑了上下文来挖掘高质量短语
PMI(点互信息)
如果两部分联合出现的频率远大于两者在独立情况下随机共现的频率,说明这两个部分的共现是一个有意义的搭配,预示着两者应该组成一个有意义的短语而非纯粹偶然共现
挖掘组成部分一致性较高(经常一起搭配)的短语
左(右)邻字熵
描述词汇的自由搭配程度,也就是用来衡量一个词的左(右)邻字集合的丰富程度
一个词汇的左(右)邻熵越大,左(右)搭配越丰富,则该词汇越有可能是一个好的词汇
挖掘左(右)邻丰富的短语
词汇挖掘必要性
理解一个领域往往是从理解领域词汇开始的
与图书情报领域的叙词表(主题词表)构建相关
词汇知识是理解用户意图的关键知识,知识图谱中的实体、概念是通过词汇表达的