导图社区 OMAHA中文医学本体构建
这是一篇关于OMAHA中文医学本体构建的思维导图,主要内容有本体包括多个概念和概念之间的关系,概念包括多个实体、公众号学习资料、调研资料、模型训练框架和技术。
编辑于2022-05-27 09:22:17当前经济形势研究分析,包括高端制造业、低估值、大宗商品、免税店、居民生活等等,需要的可以看下。
投资,指国家或企业以及个人,为了特定目的,与对方签订协议,促进社会发展,实现互惠互利,输送资金的过程。又是特定经济主体为了在未来可预见的时期内获得收益或是资金增值,在一定时期内向一定领域投放足够数额的资金或实物的货币等价物的经济行为。可分为实物投资、资本投资和证券投资等。前者是以货币投入企业,通过生产经营活动取得一定利润,后者是以货币购买企业发行的股票和公司债券,间接参与企业的利润分配。
当前经济形势研究分析,包括高端制造业、低估值、大宗商品、免税店、居民生活等等,需要的可以看下。
社区模板帮助中心,点此进入>>
当前经济形势研究分析,包括高端制造业、低估值、大宗商品、免税店、居民生活等等,需要的可以看下。
投资,指国家或企业以及个人,为了特定目的,与对方签订协议,促进社会发展,实现互惠互利,输送资金的过程。又是特定经济主体为了在未来可预见的时期内获得收益或是资金增值,在一定时期内向一定领域投放足够数额的资金或实物的货币等价物的经济行为。可分为实物投资、资本投资和证券投资等。前者是以货币投入企业,通过生产经营活动取得一定利润,后者是以货币购买企业发行的股票和公司债券,间接参与企业的利润分配。
当前经济形势研究分析,包括高端制造业、低估值、大宗商品、免税店、居民生活等等,需要的可以看下。
中文医学本体构建
本体包括多个概念和概念之间的关系,概念包括多个实体
知识图谱是以图结构来存储数据及其关联关系的,用于以符号主义(Symbolism)的形式描述物理世界中的概念及其关联关系,其基本组成单位是<实体,关系,实体>三元组,和实体及其相关属性的属性值对,实体之间通过关系相互联结,构成网状的知识结构。
公众号学习资料
OpenNRE
OpenNRE 是基于 Tensorflow 开发的,一个用于神经网络关系提取的工具包,由清华大学刘知远老师及其团队贡献的开源项目。在该项目中,关系提取会分为嵌入、编码器、选择器和分类器四步。
GIT地址
https://github.com/thunlp/OpenNRE
中文序列标注Flat Lattice
解决的是中文命名实体识别的任务。文章提出的方法在多个数据集上达到了SOTA结果,目前是中文NER的一个主流的方法。
GIT地址
https://github.com/LeeSureman/Flat-Lattice-Transformer
文本分类
GIT地址
https://github.com/dennybritz/cnn-text-classification-tf
调研资料
面向电子病历的医学术语规范化系统设计及实现_席新
基于命名实体识别,从电子病历自由文本中抽取医学术语
术语规范化是将不规范的术语映射到标准的术语集中
对算法推荐的结果进行人工校验
命名实体识别技术
基于规则和词典的方法
依赖模板和词典的建立,以模式和字符串匹配为主要方法
可以精确识别文本中的实体
难以发现未登录的词
基于机器学习
分类问题,利用支持向量机、最大熵模型等方法解决
序列化标注问题,利用隐马尔科夫模型、条件随机场(CRF)等方法解决
深度学习技术
BERT(bidirectional encoder representation from transformers)
长短期记忆网络LSTM等方法
通过术语 相似度匹配算法,映射到自主研发的术语集
基于词汇的字面相似度算法
基于词素的语义相似度算法
基于语义词典的语义相似度
Word2Vec算法深度学习也用于相似度计算
术语相似度匹配
建立不规范术语到标准术语的映射,建立两者之间同义词关系
利用术语相似度算法将相似度最高的 Top3术语进行推荐,与标准术语集中的标准术语进行匹配
系统设计
功能包括
1、基于算法的术语抽取,并高亮显示
2、基于算法相似度匹配,给出待规范术语到标准术语匹配Top3推荐
3、人工校验与审核,并将规范后的术语写回到标准术语集中,并将更新的词库用于下一份病历的命名实体识别
4、校审人员管理
5、电子病历脱敏数据集术语集管理
功能截图
中文医学实体构建白皮书-omaha
让计算机读懂人类语言
本体(Ontology)作为一种新型的知识组织工具,是语义Web时代被用来解决语义层次上网络信息共享和交换问题的关键
本体合并是建立不同本体中实体之间的映射,然后进行相似实体的删除,或组合出新实体、或声明新规则,最终产生出一个新的合并后的本体
本体模型
疾病、 症状、体征、手术操作、检查检验、药品、护理、影像、解剖、基因、基因突变
本体构建方法
众包机制
protégé
模型构建
数据构建
UMLS与TCMLS语义类型分析对比
UMLS
UMLS融合 了 MeSH,SONMEND,AOD,ReadCodes等 100多种叙 词 表 架 构
TCMLS
根 据 中 医药 学 工 具 书 、 辞典、教科书等建立 了具有 中医药学科特色 的树形结构
中医药知识图谱构建与应用(华东理工、上海曙光医院)
中文医学知识图谱CMeKG构建(鹏城实验室、郑州大学)
SNOMED-CT
国际医疗术语标准开发组织维护的系统化临床医学术语集
医学术语标准化
MeSH
美 国 国 立 医 学图书馆编制的医学主题词表
ICD- 10、ATC、MeSH 来组织和引导知识图谱构建过程, 保证我们的医学知识的权威性和系统性
语 料 处 理\知识提取
知识图谱构建的自动化和规范化工程模式
中文分词、命名实体识别以及关系提取技术
三元组关系
实体对齐、实体匹配
CMeKG构建流程
1、首先,我们参考国际标准,在医学专家的指导下设计医学知识图谱模式层的规范体系。 2、在算法自动提取及人工标注、校对的基础上,整合提取医学概念关系 实 例,并进行实体对齐和归一化处理。 3、在上述步骤完成后,根据医学专家的评价和反馈,迭代地修正医学知识图谱。 4、最终,形成中文医学知识 图谱 CMeKG1.0,并在可视化平台上展示
15大类概念分类、67种概念关系、10万多个实体、60多万个三元组关系
医学知识提取技术
数据来源
国 际/ 国 家 医 学 标 准 术 语 集、 医 学 教材、临 床 路 径 指 南、 临床实践文件、和医学百科
自动构建技术
基于规则的抽取器
半结构化信息
基于深度学习的方法
基于规则提取的三元组和人工标注的临床实践数据
三元组抽取两类方法,精确度不高
1、pipeline方法
先实体识别再进行关系分类
2、联合抽取方法
同时进行实体和关系抽取
作者提出围绕疾病实体,抽取另一个实体以及两个实体之间的关系
关系名+BMES 标注方式(R-B、R-M、R-E、R-S)
BiLSTM+softmax分类模型
基于依存分析的开放式中文实体关系抽取方法_李明耀
实体关系抽取,从自由文本中抽取指定的命名实体、语义关系、事实时间等信息,把没有结构的自由文本转化成有结构的信息。
依存分析的结果抽取关系表述
中文语法启发式规则
借助哈工大的语言云平台对分句后的自由文本进行分词、词性标注、命名实体识别和预存分析的预处理。
依存分析的目的是通过分析句子中各个成分之间的依赖关系,从而揭示句子的句法结构
依存句法的4条公理
1、每个句子中只有一个要素是独立的
2、其他要素都依赖于某一要素
3、任何一个要素只能依赖于某一要素
4、若要素A直接依赖于要素B,同时要素C在句中位于A和B之间,那么C直接依赖于A或者B
基于深度学习的病历命名实体识别研究_杨巍
内涵质控例子
CCKS2017竞赛资料
实现代码地址
主要实现使用了基于字向量的四层双向LSTM与CRF模型的网络.该项目提供了原始训练数据样本(一般醒目,出院情况,病史情况,病史特点,诊疗经过)与转换版本,训练脚本,预训练模型,可用于序列标注研究
四层双向LSTM(Bi-LSTM)
预训练的字向量
修饰词作为主实体的辅助信息放置于属性部分,例如否定词、发生时间多数出现在实体前面,转归描述出现在实体后面
采取增量标注的策略,即标注一部分病历后,先将病历中的标注过的实体全部在后续的病历中展示出来。
模型训练框架和技术
keras
Keras是一个高层神经网络API,keras由纯Python编写而成并基于Tensorflow、Theano、以及CNTK后端。Keras为支持快速实验而生,能够把你的idea迅速转为结果
环境搭建
GPU
cuda
NVIDIA 发明的一种并行计算平台和编程模型。它通过利用图形处理器 (GPU) 的处理能力,可大幅提升计算性能
cudnn
深度神经网络库(cuDNN)是GPU加速的用于深度神经网络的原语库。cuDNN为标准例程提供了高度优化的实现,例如向前和向后卷积,池化,规范化和激活层。
Anaconda
tensorflow
keras
pycharm 2022.1
提供高可用Python API,快速构建和训练自己的深度学习模型
后端是TensorFlow、Theano、MxNet
HDF5二级制格式进行模型数据存储
pip install h5py
B站学习视频
Keras深度学习快速简明教程
案例线性回归
f(x)=ax+b
损失函数
使用均方差作为成本函数
如何优化:使用梯度下降算法
多元线性回归
Y=w1*x1+w2*x2+b
逻辑回归
Sigmoid函数
交叉熵损失函数
实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近
H(p,q)
keras里使用binary_crossentropy来计算二元交叉熵
多分类,softmax分类
对于多个选项的问题,使用softmax函数
对数几率回归在N个可能不同的值上的推广
公式
softmax各样本分量之和为1,当只有两个分类时,与对数几率回归完全相同
keras交叉熵,对于多分类问题使用categorical_crossentropy和sparse_categorical_crossentropy来计算softmax交叉熵
手写数字识别
模型的优化
增大网络容量
model.add(layers.Dense(64,activation='relu'))
学习视频-莫烦python-keras快速搭建神经网络
代码下载
Keras基础入门教程 深度学习框架
交叉熵代价函数(cross-entropy)
二次代价函数
子主题
sigmoid函数
对数释然代价函数(log-likelihood cost)
深度学习中普通的做法是将softmax作为最后一层,此时常用的代价函数是对数释然代价函数
对数释然函数常用来作为softmax回归的代价函数
拟合、Dropout、正则化
提前训练
过拟合
Dropout
在训练神经网络的时候,随机的让一些隐藏层的神经元失效
正则化应用
l1和l2范数正则化
拉格朗日乘数法
正则化定义:凡是减少泛化误差,而不是减少训练误差的方法,都可以称作正则化方法,就是减少过拟合的方法
优化器(Optimizer)
SGD
梯度下降法
Adagrad
Adadelta
RMSprop
Adam
Adamax
Nadam
TFOptimizer
卷积神经网络(Convolutional Neural Network)CNN
局部感受野、权值共享
滤波器
池化(Pooling)
max-pooling
mean-pooling
随机池化 stochastic-pooling
LeNET-5
递归神经网络RNN
RNN有一个反馈回路,这个反馈回路会把上一个时间的输出信息,作为下一个时间的输入来处理
RNN有一个重要的用法就是通过之前的信息来决策当前的问题
梯度消失问题
记忆错误的信息
长短时记忆网络LSTM
是一种特殊的RNN,只不过有着更复杂的结构,在LSTM网络中使用了上图的block替换了原来隐藏层的神经元
RNN应用
保存模型
载入模型
keras项目实战课程
图像数据预处理
猫狗分类
实验数据集下载
代码资料下载
资料下载:链接:https://pan.baidu.com/s/1dF8qBQnfq5QOMnX3n8NuZQ 密码:hn7r
图像风格转移
VGG16、VGG19
卷积层、池化层
word2vec
Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近 Embedding其实就是一个映射,将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去
Skip-Gram 模型
给定input word来预测上下文
获得模型基于训练数据学得的隐层权重
Fake Task
下面举一个例子来展示如何训练神经网络: 首先这里有一句话:[I, want, to ,learn, NLP],下面使用这句话来训练神经网络。 1、首先遍历这句话,选取中心词,假设现在遍历到了“learn”这个单词,然后这里有一个超参数叫做window size。假设window_size=1,则这个window中包括中心词前后各一个单词(window_size=n,则这个window中包括中心词前后各n个单词,window长度为2n)。 2、然后我们可以在window中获得两组(input word, output word),分别是:(learn, to),(learn, NLP)。 3、神经网络基于这些训练数据将会输出一个概率分布,这个概率代表着我们的词典中的每个词是output word的可能性,后优化参数,最大化这个概率,就完成了对网络的训练。 4、然后训练好的网络模型的隐层权重矩阵就是最终想得到的词向量。
例如目标词汇是早餐,上下文词汇可能是今天和吃面包
CBOW模型(连续词袋模型)
CBOW是给定上下文,来预测input word,例如上下文词汇是今天早餐是____,要预测的目标词汇可能是面包
keras模型跟数据下载位置
C:\Users\zuife\.keras
函数式模型
基于seq2seq的中文分词器
维特比算法
2022年必看的Keras全套教程从入门到独立做项目实战(附赠学习资料)Python神经网络与深度学习-人工智能
词向量模型
是能够将单词转化为向量来表示,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系
BERT作为word2vec的替代者
使用了Transformer作为算法的主要框架,能更彻底的捕捉语句中的双向关系
使用了MASK Language Model 和Next Sentence Prediction 的多任务训练目标
自监督学习是指在没有人工标注的数据上运行的监督学习,在以后特定的NLP任务中使用BERT的特征表示作为该任务的词嵌入特征
多层Transformer结构,抛弃传统的RNN和CNN,通过Attention机制
使用Transformer(中的编码器)作为特征抽取器
能建模一词多义的现象
Transformer
是一个encoder-decoder的结构,由若干个编码器和解码器堆叠形成
one-hot表示
分布式表示(distributed representation)
word2vec
Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近 Embedding其实就是一个映射,将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去
Skip-Gram 模型
给定input word来预测上下文
获得模型基于训练数据学得的隐层权重
Fake Task
下面举一个例子来展示如何训练神经网络: 首先这里有一句话:[I, want, to ,learn, NLP],下面使用这句话来训练神经网络。 1、首先遍历这句话,选取中心词,假设现在遍历到了“learn”这个单词,然后这里有一个超参数叫做window size。假设window_size=1,则这个window中包括中心词前后各一个单词(window_size=n,则这个window中包括中心词前后各n个单词,window长度为2n)。 2、然后我们可以在window中获得两组(input word, output word),分别是:(learn, to),(learn, NLP)。 3、神经网络基于这些训练数据将会输出一个概率分布,这个概率代表着我们的词典中的每个词是output word的可能性,后优化参数,最大化这个概率,就完成了对网络的训练。 4、然后训练好的网络模型的隐层权重矩阵就是最终想得到的词向量。
例如目标词汇是早餐,上下文词汇可能是今天和吃面包
CBOW模型(连续词袋模型)
CBOW是给定上下文,来预测input word,例如上下文词汇是今天早餐是____,要预测的目标词汇可能是面包
词向量
预训练的词向量与词嵌入技术