导图社区 NLP
NLP入门介绍,命名实体识别(Named Entity Recognition,简称NER),⼜称作“专名识别”,是指识别⽂本中具有特定意义的实体,主要包括⼈名、地名、机构名、专有名词等。简单的讲,就是识别⾃然⽂本中的实体指称的边界和类别。
编辑于2023-08-11 10:43:06 湖北省华中科技大学情报检索第三章 信心检索方法,主要涉及如何有效地从大量信息中检索出所需的内容。信息检索是通过一定的方法和手段,从大量信息集合中找出符合特定需要的信息的过程。检索词是关键,主要包括主题词、关键词、名称、分类号、专利号等。信息检索的基本方法布尔逻辑检索、邻近检索、截词检索、截词检索等。
华中科技大学情报检索 第二章 信息及信息源类型,该图详细列出了多种类型的文档,并为每种文档提供了相应的标识方式和特征描述。图书(Book):使用ISBN号作为唯一标识符,这是一种连续出版物,可以定期或不定期出版,通常包含单独的论文或内容。 期刊(Periodical):使用ISSN号作为唯一标识符,它是国际标准连续出版物号,代表了一种定期出版的连续出版物。脑图中的每个部分都与信息和信息源类型、信息资源类型密切相关,形成了一个全面的信息检索系统。通过这个系统,用户可以方便地找到所需的文档和资料。
NLP入门介绍,命名实体识别(Named Entity Recognition,简称NER),⼜称作“专名识别”,是指识别⽂本中具有特定意义的实体,主要包括⼈名、地名、机构名、专有名词等。简单的讲,就是识别⾃然⽂本中的实体指称的边界和类别。
社区模板帮助中心,点此进入>>
华中科技大学情报检索第三章 信心检索方法,主要涉及如何有效地从大量信息中检索出所需的内容。信息检索是通过一定的方法和手段,从大量信息集合中找出符合特定需要的信息的过程。检索词是关键,主要包括主题词、关键词、名称、分类号、专利号等。信息检索的基本方法布尔逻辑检索、邻近检索、截词检索、截词检索等。
华中科技大学情报检索 第二章 信息及信息源类型,该图详细列出了多种类型的文档,并为每种文档提供了相应的标识方式和特征描述。图书(Book):使用ISBN号作为唯一标识符,这是一种连续出版物,可以定期或不定期出版,通常包含单独的论文或内容。 期刊(Periodical):使用ISSN号作为唯一标识符,它是国际标准连续出版物号,代表了一种定期出版的连续出版物。脑图中的每个部分都与信息和信息源类型、信息资源类型密切相关,形成了一个全面的信息检索系统。通过这个系统,用户可以方便地找到所需的文档和资料。
NLP入门介绍,命名实体识别(Named Entity Recognition,简称NER),⼜称作“专名识别”,是指识别⽂本中具有特定意义的实体,主要包括⼈名、地名、机构名、专有名词等。简单的讲,就是识别⾃然⽂本中的实体指称的边界和类别。
工具
中文分词工具
Hanlp
Stanford 分词
ansj 分词器
哈⼯⼤ LTP
KCWS 分词器
jieba
IK
清华⼤学 THULAC
ICTCLAS
英文分词工具
Keras
Spacy
Gensim
NLTK
英⽂词形还原可以直接使⽤ Python 中的 NLTK 库,包含英语单词的词汇数据库。
词⼲提取 STEMMING 词形还原 LEMMATISATION
⽐如当我搜索「play basketball」时,Bob is playing basketball 也符合我的要求,但是 play 和 playing 对于计算机来说是 2 种完全不同的东⻄,所以我们需要将 playing转换成 play。
词形还原是基于词典,将单词的复杂形态转变成最基础的形态。 词形还原不是简单地将前后缀去掉,⽽是会根据词典将单词进⾏转换。⽐如「drove」会转换为「drive」。
相同点
⽬标⼀致。词⼲提取和词形还原的⽬标均为将词的屈折形态或派⽣形态简化或归并为词⼲(stem )或原形的基础形式,都是⼀种对词的不同形态的统⼀归并的过程。
结果部分交叉。词⼲提取和词形还原不是互斥关系,其结果是有部分交叉的。⼀部分词利⽤这两类⽅法都能达到相同的词形转换效果。如“dogs” 的词⼲为 “dog” ,其原形也为“dog”
主流实现⽅法类似。⽬前实现词⼲提取和词形还原的主流实现⽅法均是利⽤语⾔中存在的规则或利⽤词典映射提取词⼲或获得词的原形。
应⽤领域相似。主要应⽤于信息检索和⽂本、⾃然语⾔处理等⽅⾯,⼆者均是这些应⽤的基本步骤。
不同点
在原理上,词⼲提取主要是采⽤“缩减”的⽅法,将词转换为词⼲,如将“cats”处理为“cat”,将“effective”处理为“effect”。⽽词形还原主要采⽤“转变”的⽅法,将词转变为其原形,如将“drove”处理为“drive”,将“driving”处理为“drive”。
在实现⽅法上,词⼲提取和词形还原实现的主流⽅法类似,但⼆者在具体实现上各有侧重。 词⼲提取的实现⽅法主要利⽤规则变化进⾏词缀的去除和缩减,从⽽达到词的简化效果。 词形还原则相对较复杂,有复杂的形态变化,单纯依据规则⽆法很好地完成。其更依赖于词典,进⾏词形变化和原形的映射,⽣成词典中的有效词。
在结果上,词⼲提取和词形还原也有部分区别。词⼲提取的结果可能并不是完整 的、具有意义的词,⽽只是词的⼀部分,如 “revival” 词⼲提取的结果 为“reviv”,“ailiner”词⼲提取的结果为“airlin”。⽽经词形还原处理后获得的结果是具有⼀定意义的、完整的词,⼀般为词典中的有效词
在应⽤领域上,同样各有侧重。虽然⼆者均被应⽤于信息检索和⽂本处理中,但侧 重不同。 词⼲提取更多被应⽤于信息检索领域,如Solr、Lucene等,⽤于扩展检 索,粒度较粗。 词形还原更主要被应⽤于⽂本挖掘、⾃然语⾔处理,⽤于更细粒 度、更为准确的⽂本分析和表达
3 种主流的词⼲提取算法
Porter
主要关注点是删除单词的共同结 尾,以便将它们解析为通⽤形式
为⼀种很好的基本词⼲算法,可以保证重复性
它也是⼀种⾮常温和的词⼲算法
Snowball
Porter2 词⼲算法
Snowball 在 Porter 的基础上加了很多优化
Lancaster
Lancaster 的算法⽐较激进,有时候会处理成⼀些⽐较奇怪的单词
NLTK 中使⽤词⼲分析器,则可以⾮常轻松地将⾃⼰的⾃定义规则添加到此算法中
词形标注
汉语是⼀种缺乏词形态变化的语⾔,词的类别不能像印欧语那样,直接从词的形态变化上来判别。
词性标注4种常⻅⽅法
基于规则
是按兼类词搭配关系和上下⽂语境建造词类消歧规则。早期的词类标注规则⼀般由⼈⼯构建
基于统计
统计⽅法将词性标注看作是⼀个序列标注问题。其基本思想是:给定带有各⾃标注的词的序列,我们可以确定下⼀个词最可能的词性。
隐⻢尔可夫模型(HMM)、条件随机域(CRF)
基于规则+统计
基于深度学习
可以当作序列标注的任务来做
LSTM+CRF、BiLSTM+CRF
工具推荐
Jieba
SnowNLP
SnowNLP是⼀个python写的类库,可以⽅便的处理中⽂⽂本内容
THULAC
THULAC(THU Lexical Analyzer for Chinese)由清华⼤学⾃然语⾔处理与社会⼈⽂计算实验室研制推出的⼀套中⽂词法分析⼯具包,具有中⽂分词和词性标注功能
StanfordCoreNLP
HanLP
HanLP是⼀系列模型与算法组成的NLP⼯具包,由⼤快搜索主导并完全开源,⽬标是普及⾃然语⾔处理在⽣产环境中的应⽤。
NLTK
NLTK是⼀个⾼效的Python构建的平台,⽤来处理⼈类⾃然语⾔数据。
SpaCy
不支持中文
命名实体识别 | NER
NAMED-ENTITY RECOGNITION
命名实体识别(Named Entity Recognition,简称NER),⼜称作“专名识别”,是指识 别⽂本中具有特定意义的实体,主要包括⼈名、地名、机构名、专有名词等。简单的讲, 就是识别⾃然⽂本中的实体指称的边界和类别。
阶段
1 :早期的⽅法,如:基于规则的⽅法、基于字典的⽅法
2 :传统机器学习,如: HMM MEMM CRF
3 :深度学习的⽅法,如: RNN – CRF CNN – CRF
4 :近期新出现的⼀些⽅法,如:注意⼒模型、迁移学习、半监督学习的⽅法
4类常⻅的实现⽅式
有监督的学习⽅法
需要利⽤⼤规模的已标注语料对模型进⾏参数训练。包括隐⻢尔可夫模型、语⾔模型、最⼤熵模型、⽀持向量机、决策树和条件随机场等。值得⼀提的是,基于条件随机场的⽅法是命名实体识别中最成功的⽅法。
常⽤的模型或⽅法
半监督的学习⽅法
:这⼀类⽅法利⽤标注的⼩数据集(种⼦数据)⾃举学习。
⽆监督的学习⽅法
:这⼀类⽅法利⽤词汇资源(如 WordNet )等进⾏上下⽂聚类。
混合⽅法
:⼏种模型相结合或利⽤统计⽅法和⼈⼯总结的知识库