导图社区 NLP数据集处理
这是关于NLP数据集处理的思维导图,介绍了NLP数据集的概念,通过实体抽取与关系抽取来进一步介绍NLP数据集相关知识。
这是一个数据存储分库分表优化技术的思维导图,介绍了数据存储的分类和技术,其中数据存储的技术作了非常细致的介绍。
service mesh 服务研究分析思维导图,包括微服务架构痛点分析、service mesh两个方面的介绍。
这是一个service mesh 架构设计思维导图,包括微服务架构痛点分析和service mesh两个方面的内容,使我们更好了解到serice mesh相关的知识
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
图谱
NLP数据集处理
中文ner数据集
ner:实体命名识别/ 序列标注
词标注===》字标注
新闻抽取:OntoNotes4.0
社交抽取:,MSRA,Weibo
英文
CoNLL2003 /ACE 2004 /OntoNotes 5.0
数据标注
BIO /BIOES
挑战:垂直领域的语料少
ner建模:Encoder-Decoder架构--基础模型
LSTM+CRF
BiLSTM+crf
lstm是rnn循环神经网络/cnn卷积神经网络
ID-CNNs 利用dilated CNN,扩大Encoder的感受野,长程消息预测
BERT 最强Baseline,对知识进行蒸馏
词汇增强模型:
词汇信息整合到基于字的序列标注模型中
是中文ner主流研究方向之一
Lattice-LSTM
词汇+字 构成Lattice结构 词汇信息整合进词汇的首尾字符的表示中
LR-CNN
attention
FLAT
融合字符与词汇的Lattice结构,引入Transformer进行建模 + GPU并行处理
实体抽取
实体类型信息增强模型
BERT-MRC : 实体描述信息作为先验知识输入到模型中
TriggerNER
半监督模型:无标签,有标签
BERT 预训练语言模型
将文本知识整合到词向量
NCRF-AE
将label信息作为隐变量
VSL-G
引入 隐变量 以及隐变量的层次结构
采用平行预料发现实体
对特征向量插值
对token序列进行重新排列组合
对训练句子进行knn聚类
LADA在隐向量层面进行增强
ENS-NER 模型采用在词向量上添加高斯噪声的统计学数据增强手段
随机掩盖
同义词替换
复杂实体
不连续实体/嵌套实体/重叠实体
关系抽取
分类:不固定类型的关系抽取 OpenIE/固定类型关系抽取
关系抽取数据集
句子级关系抽取
ACE-2005 /SemEval/Tast-8 /TACRED
远程监督关系抽取数据集 NYT
小样本关系抽取:FewRel /FewlRel
文档集关系抽取:DocRED
有监督关系抽取评估:标准精度/召回率/F度量
远程监督的关系抽取:进行保留/手动评估
挑战和问题
数据标注成本高
需要结合上下文
人工成本高
长尾效果不佳
长尾意味着训练样本少
深度学习难以进行训练
复杂场景关系抽取困难
段落级关系抽取
文本中包含多个关系
借助图神经网络分析
句子中多个关系,推理出实体隐式关系
经典模型
CNN 结合max pooling 和word embedding对整个句子进行编码==》句子编码进行关系分类
RNN
LSTM 长短期记忆网络
发现实体间最短依赖路径,两实体到公共祖先节点的最短路径
BERT预训练语言模型/R-BERT (超过深度学习效果)
EPGNN模型(结合BERT提取句子特征与用图神经网络提取实体对在知识图谱中的特征top进行关系抽取)
深度学习关系抽取 需要大量训练标注数据
远程监督模型
句子与freebase知识图谱中的三元组对齐,三元组提供了监督信息
问题:重叠关系无法建模/噪音(错误)标签
1.多实例多标签学习(MIML)
C-GCN 依存树+以路径为中心的裁剪法 +移除与路径无关的依存树
PCNN 抽取特征向量时,考虑实体位置 +分段polling +上下文依存关系抽取
2.引入外部知识的方法
APCNN 引入实体描述
3.去除噪音标签的方法
强化学习
实例选择+关系分类
对抗训练
DSGAN 通过学习 句子级真实正样本的生成器+判别器 来消除远程监督的噪音
缺点:缺乏显示监督引入去噪过程的有效方法 ,采样操作对去噪结果优化困难
引入对抗去噪,加入人工监督
小样本关系抽取
关系分布长尾性
数据集:FewRel
度量学习+元学习
度量学习
MTB模型,采用对比学习思路
基于wikipedia生成6亿句子对
元学习
贝叶斯元学习
无模型的元学习算法MAML相关的SGLD方法对关系原型向量进行优化
实体关系联合抽取
基于序列标注的模型
实体关系 联合抽取任务 当作一个序列标注任务来处理
无法解决重叠关系问题
基于文本span的动态图模型
DYGIE 实体识别和关系抽取 建模为句子中span图构建和图节点分类问题
标注和预测由一维图标注为2维图
DYGIE++ 添加了事件元素识别任务 采用Bert替换BiLSTM进行底层表示
可以解决实体嵌套问题
对于不连续实体,重叠关系尚未充分研究
句子之间的关联:共指关系,语义依存树
GCNN模型为5种不同关联方式 进行图单独卷积
用的DocRED数据集,基于wiki百科和wikidata知识图谱构建,效果不错
文档信息抽取难题:
1.文档结构抽取
2.给定schema信息抽取
半结构化文档
physical layout
logical structure
长架构化语言模型
document ai +长句子语言模型
趋势
schema如何自动构建
信息抽取的统一性和低资源化