导图社区 藏文信息处理的笔记
藏语信息处理,由计算机科学、藏语言学、数学等多种学科融合一体的学科,也就是用计算机对藏文的音形、义等语言文字信息进行处理和加工技术
编辑于2023-03-21 23:37:37 青海省藏文信息处理
I. 藏文信息处理概述
藏语信息处理,由计算机科学、藏语言学、数学等多种学科融合一体的学科,也就是用计算机对藏文的音形、义等语言文字信息进行处理和加工技术
藏语信息处理,是针对藏语言文字进行各种自动化处理的技术,其目标是要让电脑认识、分析、理解藏语言,希望最终让电脑跟人类顺畅的沟通,以完成各项指定的任务。
II. 藏语信息处理的研究意义
大数据中挖掘有价值的信息
人与计算机之间的交流
日常工作的自动化完成藏语言的理论论系和应用研究
藏语言文字的传承和保护
........
III. 藏语信息处理的研究目标
目标: 计算机学会藏语言文字,包括听说读写
IV. 藏文信息处理研究内容
研究内容分为五个方面
语音分析
语音合成
语音识别
文语转换
语音输入
语音翻译
词法分析
1.分词
为什么需要藏文分词? —— 在英文中,单词之间是以空格作为自然分界符的,而中文和藏文的词与词之间没有明显的分界符来简单划界
什么是藏文分词?
是将一个藏文符号序列切分成一个个单独的词。也就是分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。——简单的讲,藏文分词就是让计算机系统在藏文文本中的词与词之间自动加上空格或其他词边界标记。
藏文分词面临的挑战-问题
歧义识别 ——歧义是指同样的一句话,可能有两种或者更多的切分方法
交集型歧义 དེང་རབས་བོད་སྐད་ཚིག་མཛོད།
组合型歧义 ཀྲུང་ཧྭ་མི་དམངས་སྤྱི་མཐུན་རྒྱལ་ཁབ།
未登录词 (新词识别)——命名实体 (人名、地名)、新词,专业术语称为未登录词 机构名、地名、产品名、商标名、简称、省略语
藏文分词的技术分类
基于词典:基于字典、词库匹配的分词方法: (字符串匹配、机械分词法
正向最大匹配法 (由左到右的方向)
逆向最大匹配法(由右到左的方向)
双向最大匹配法(进行由左到右、由右到左两次扫描)
基于统计:基于词频度统计的分词方法。
深度学习:基于深度学习方法
基于理解:基于知识理解的分词方法
2.词性标注
3.词频统计
4.词排序
5.拼写检查
6.词形还原 (藏文缩写词)
7.命名实体 (人名、地名、机构名)
8.词典 (单语、双语、多语)
句法分析
1.句子结构分析
2.句子边界识别
3.句子对齐方法
4.句子类型转换
5.句子语义分割
语义分析——浅层
1.词义
词向量
词相似度
词义消歧
词义分类
2.句义
句子相似度分析
句子语义理解
句子压缩方法
句子扩展方法
句子复述学习
语义角色标注
语义依存分析
指代消歧
情感分析
语用分析 ——深层 词法分析和句法分析不同,语法用于小与等于句子的
1谜语
2谚语
3成语
4比喻
藏文信息处理及应用
术语学习
什么是自然语言处理? 自然语言处理 =自然语言+ 处理
自然语言处理 —— 是AI的一个领域 旨在让计算机理解和使用人类语言,从而执行有用的任务。
自然语言生成
自然语言理解
语言
动物语言
机器语言
机器语言——二进制代码语言,该语言是由二进制数0或1组成的一串指令,——不便于记忆和识别。
汇编语言——汇编语言用英文字母或符号串来替代机器语言——便于阅读和理解。
高级语言——由于汇编语言依赖于硬件,使得程序的可移植性极差,还需学习新的汇编指令,大大增加了编程人员的工作量,为此计算机高级语言诞生了。——它比汇编语言更贴近于人类使用的语言,易于理解、记忆和使用
人类语言 语音+语义-->语言 目的:表达,沟通 语音能准确的表达语义,他人也就可以通过语音了解背后的语义,进而达到有效沟通。
语音——语音表示准确的发音,但准确发音的前提是听觉系统发育完善 语音能准确的表达语义
语义——就是语音背后所表示的含义。
语法结构——是音节或符号组合规则
计算机编程语言和人类说的语言有何区别
自然语言:就是我们人类说的语言,——比如汉语,英语,日语,法语等等自然语言并不算是人为设计的,更多的是在人类进化过程中逐步形成的
形式语言:是人们为了一些特定的应用人为设计的,——一般包括符号和结构的设计比如数学算式的数字和运算符号,化学家的化学式等等。编程语言也是种形式语言,是专门设计用来表达计算过程的形式语言。
词
语音
平仄
拼写
语法
构词法
词类
词性
语义
本义
引申义
比喻义
藏文字与词的关系
1.概念不同
字是用来记录语言的符号,单个的,不一定有实际意义。
词是由语素构成的,能独立充当句子成分或有语义最小单位
2.音节数量不同
字是由一个音节组成的,是一个(音节)藏文
词是由多个音节组成的,一般由两个藏文组成
3.关系不同
字从属于词,是个体。
词包含字,是整体。词是字的组成
藏文词的分类方式
按传统藏文分类:
1.随欲名: ས ཆུ མེ རླུང
2.随立名: ས་དམར། རླུང་རྟ།
按构词方式可分为:
单纯词:ཀ་ར་ པོ་ཏ་ལ།
合成词:ཕོ་བྲང་པོ་ཏ་ལ། གངས་རི།
按音节可分为三类:
1.单音节: ས ཆུ མེ རླུང
2.双音节:ཉི་མ ཟླ་བ ནམ་མཁའ མེ་ཏོག
3.多音节:དཀོན་མཆོག་གསུམ། བཅོམ་ལྡན་འདས། བྱང་ཆུབ་སེམས་དཔའ།
词
词的概念
分词
藏文分词
词歧义
未登录词
分词技术
词类分类
实词——词语中含有实际意义的词,实词能单独充当句子成分,即有词汇意义和语法意义的词。
名词实 ——词的一种,是指代人、物、事、时、地、概念等实体或抽象事物的词。
动词——表示人或事物的动作、存在、变化的词。
形容词——主要用来修饰名词的词,表示人或事物的性质、状态、特征、质量、大小、新旧、形状、颜色、温度等。
代词——代词指的是代替名词或一句话的一种词类。
数词——表示“多少”和“第几”的词,叫数词.其用于修饰名词。
量词——量词通常用来表示人、事物或动作的数量单位的词,叫做量词。如头、匹、条等。量词,与代表可计数或可量度物体的名词连用或与数词连用的词。
副词——是一种用来修饰形容词的词
时间副词、
地点副词、
方式副词
程度副词、
疑问副词、
连接副词、
关系副词、
频率副词
说明性副词
什么是地名词——表示地理名称、地方名称或山水名、行政区划等名词。包括位置、分布、距离、关系、方向、邻接等。
.什么是时间名词?——时间名词,名词之一。指称时间的名词。
什么是方位名词?——方向位置。东、南、西、北为基本方位;东北、东南等为中间方位。
.什么是状态词?——状态词是表示状态的形容词。状态即物质系统所处的状况,对不同的物质运动形式,可用不同的一组物理量来描述相应物质系统的状态。
藏文构词法
什么叫藏文构词法?—随着社会的发展词不断发展、不断增加,新词的构成要服从一定的语法规则,遵循一定的规律,这种—按照语言的定规律,创造新词的方法就叫做构词法。
藏文构词法和造字法的区别
构词法:——指词语的构成,是针对词语的内部结构规律而言
造词法 ——创造新词的方法,解决词从无到有的问题
藏文构词分类
合成法:——由两个或两个以上单词合成一个单词。
派生词:——词根或单词附加前缀、后缀构成的新词叫派生词。
转换法:——把一个词由一种词类转用为另一种词类。
什么是词频?
——是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度。
——词频分析是对文本数据中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它的基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势.
什么要研究词频?——来确定热点及其变化趋势
什么叫词汇共现?——指的是在某一语篇中两个词汇同时出现的频率叫词的共现度。该方法对构词和词汇搭配提供了一点的基础性工作
同义、
反义、
互补、
上下义、
组合
什么叫n元模型?——在自然语言处理的任务中,根据语境预测下一个单词,这种语言模型叫-n元模型。
什么叫词源学?——词源学是语言学的一个分支,它关注词源和语言在使用过程中的演变。一种语言中的每一个词都有一个复杂的历史,词源学的目的是了解这段历史,以便更好地理解这个词。此外,研究一种语言中单词的词源有助于语言学家理解语言作为二个整体,与同一语系中的其他语言一样。对语言的研究很重要,因为它揭示了语言所处的文化。
数据标注
什么是数据标注?——数据标注是对未经过处理的数据进行预处理。包括语音、图片文本、视频等进行加工处理并转换为机器可识别信息的过程。
数据标注的意义是什么?——数据标注是帮助机器学习认知数据特征的重要过程。
数据标注分类
数据标注内容包括
文本标注
图片标注
音频标注
视频标注
关节点标注
文本标注数据
词标注
短语标注
短文本标注
篇章文本标注
什么是藏文词性标注?——又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程——词类标注 = 词类分类 = 对词打标签
藏文词性标注分类
实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
虚词:副词、介词、连词、助词、拟声词、叹词。
词性标注4种常见方法
基于规则
基于统计
基于规则+统计
基于深度学习
英语词性标记
名词(nouns)n
动词 (verb) v
代词(pronoun) pron
数词(numeral) Num
量词(measure word)r
形容词 (adjective) adj
藏文词性标记
名词(nouns)n
动词(verb)v
代词(pronoun)r
数词(numeral)m
量词(quantifier)q
形容词 (adjective) a
实词部分
名词: 表示人或事物的词。
动词: 表示动作、行为、心理活动或存在变化等的词。
形容词: 表示人和事物的形状、性质或表示动作、行为的性质状态的词
数词: 表示数目和次序的词。
量词:表示计算单位的词
代词: 表示有代替、指示作用的词。
名词 ཁྱད་་གཞི་བརྗོད་པའི་མིང་།
1
汉文:专有名词
藏文:ཆེད་བཏགས་ཀྱི་མིང་།
概念:表示历史的重要事件、运动、商标、书名、报刊名、科技术语名称的专有名词。
实例:ལྔ་བཞི་ལས་འགུལ། མི་ལ་རས་པའི་རྣམ་ཐར།
词性标注: nz
2
汉文:辞藻
藏文:གྲངས་འདྲེན་གྱི་མིང་།
概念:表示表示数称的词。
实例:བཀྲ་ཤིས་རྟགས་བརྒྱད། རྒྱལ་བ་རིགས་ལྔ།
词性标注: nm
3
汉文:数称词
藏文:གྲངས་འདྲེན་གྱི་མིང་།
概念:表示表示数称的词。
实例:བཀྲ་ཤིས་རྟགས་བརྒྱད། རྒྱལ་བ་རིགས་ལྔ།
词性标注: nm
4
汉文:职街名
藏文:ཆོ་ལོའི་མིང་།
概念:表示服务,照称。头等词
实例:བཀའ་བློན། དྲུང་ཡིག དམག་དཔོན།
词性标注: nx
动词 བྱ་བའི་མིང།
1
汉文:不及物
藏文:བྱེད་མེད་ལས་ཚིག
概念:后面必须跟宾语意义才完整的实义动词,叫做及物动词
实例:འཕུར།ལངས་།འདྲོགས
词性标注: vi
2
汉文:及物
藏文: བྱེད་འབྲེལ་ལས་ཚིག
概念:本身意义完整。后面不必跟宾语的实义动词,叫做不及物动词
实例:བསྒྲུབ སྐོར སྤུར
词性标注: vt
3
汉文:判断词
藏文:རྣམ་གཅོད་ལས་ཚིག
概念:表示判断,解释和比喻等的动词
实例:ཡིན།རེད།་མིན། མེད་།
词性标注: vj
4
汉文:存在动词
藏文: གནས་པ་སྟོན་པ།
概念:指表示存在、出现或消失的动词
实例:ཡོད།་འཕེལ། ཤི་། རྒྱས། འཇིག
词性标注 :vc
5
汉文:助动词
藏文:བྱ་མང་རྗེས་མཐུན།
概念:具有语法意义”但除情态助动词外没有词汇意义,不可单独作谓语
实例:ཐུབ། ནུས་། དགོས། འདོད།
词性标注: vu
形容词 ཆོས་བརྗོད་ཀྱི་མིང་།
1
汉文:一般形容词
藏文: ཁྱད་ཆོས་ཀྱི་མང་།
实例:མཛེས་པ།་མཐོན་པོ།
词性标注: as
2
汉文: 谓语形容词
藏文: བྱ་དོད་ཁྱད་མིང་།
实例:ཡག མཛེས། སྙན།འཇམ།
词性标注: ad
数词 གྲངས་བརྗོད་ཀྱི་མིང་།
1
汉文:基数
藏文: བགྲང་གྲངས་།
概念:表示描推述事物数量的多少的教词。
实例:གཅིག བདུན།་བཅུ།
词性标注: mj
2
汉文: 序数
藏文:རིམ་གྲངས།
概念:表示顺序的词是序教词
实例:དང་པོ།གཉིས་པ། སྐབས་དང་པོ།
词性标注: mx
3
汉文:概数
藏文:རགས་གྲངས
概念:大概的致目的词汇。
实例:འགའ ཁ་ཤས། དུ་མ
词性标注: mg
量词འཇལ་བྱེད་ཀྱི་མིང་།
1
汉文:度量
藏文:འཇལ་གཤོར་གྱི་མིང་།
概念:表示计量物体的长度 、容积和重量的标准的总称的量词
实例:རྒྱང་གྲགས དཔག་ཚད།
词性标注: qd
2
汉文:个体 藏文:ཁེར་རྐྱང་གི་མིང་། 概念:表示名量词的一个子类,是相对集体量词而言的。
实例:ཉག རྐང དེབ
词性标注: qg
3
汉文:集体 藏文:ཚོགས་སྤྱིའི་མིང་།
概念:表来一个以上的集体的量词而言的量词
实例: ཚོགས། ཁྱུ ཆུན་པོ།
词性标注:qj
4
汉文:倍率 藏文:ལྡབ་ཚད་གྱི་མིང་།
概念:表示指一个整数能够被另一个整数整除,那么这个整数就是另整数的倍数。
实例: ཆ་ཤས། ལྡབ།
词性标注: ql
5
汉文:动量
藏文:ལན་གྲངས་ཀྱི་མིང་།
概念:表示动作行为的单位量词
实例: ཐེངས རེབ ལན
词性标注: qc
藏文短语
藏文短语识别
1.短语是--种语法单元。
2.实词+实词=词组 实词+虚词=结构词组+结构=短语
3.从语言单元的视角看, 语素,字,词,词组,子句,句子,是整体和部分关系。
4.从语言的关系视角看, 短语与句子之间是有- -种实现关系。
6.如何分词和短语:
短语:组合不限于两个词,有时由多个词组成。 可以借助虚词组成短语。
7.短语,是语义和语法上都能搭配的,语言产生关系的开始。
8.语法形式区别: 词,不可再拆分为更小的词。 短语,可以拆分为两个或两个以上的词。又叫词组。 句子,是一个操作单位,一个词可以是一个句子,一个词组可以是一个句子。所不同的是,句子是有标点符号的。
9. 短语与句子的区别词: 语素和语素组合成词。 短语:由词组成的、没有句调的语言单位,是造句的备用单位。 句子:由词组和虚词组成的字符串。前后都有停顿并且带着一定的句调表示相对相对完整的意义的语言形式。
10. 词,短语与句子:
A. 词=语法功能固定 语用功能固定 语法结构固定组合 语义结构固定组合的语素的组合体。
B. 短语=语法功能固定 语用功能临时 语法结构临时组合 语义结构临时组合的语素的组合体。
C. 句子=短语:词和词构成短语,词和短语都是结构单位,是静态单位。无语调.
D. 句子:词和短语同构成句子,句子是使用单位,是动态单位,带语调。
如何区分短语和句子?
句子是表示相对完整的意义,前后都有停顿,带有一定语调,人们用来进行交际的基本语言单位。
短语是由句法、语义和语用三个层面上能够搭配组合起来的没有句调的语言单位,又叫词组。它是大于词而又不成句的语法单位。(短语同句子本质的区别,并不在于量,而在于质。量再少,哪怕是一个词,只要带上语调,就是一个句子。"水!"在不同语境,有不同意思,是一个句子。)
语调就是每个人在说话时抑扬顿挫的调子 也就是靠音高、音强和音长的变化来表示自己要表述的意思.
短语与句子的区别?
从语音的视角看
1)停顿语素和语素组合成词(合成词),词和词组合成词组(短语)。句子是前后都有停顿并且带着一定的句调表示相对相对完整的意义。句子是由词组组成的。如果一个语言形式的前头和后头没有停顿,那就不是一个句子。
2)句调短语是由词组成的、没有句调的语言单位,是造句的备用单位。大多数短语可以加上句调成为句子句子是具有一个句调、能够表达一个相对完整的意思的语言单位,句子前后有隔离性停顿。
3)
藏文短语标注
1. 藏文短语划分为:
A.名词性短语
标记符号:NP
例:
B.动词性短语
标记符号:VP
例:
C.形容词性短语
标记符号:VP
例:
D.数量词性短语
标记符号:MP
例:
E.时间性短语
标记符号:TP
例:
F.代词性短语
标记符号:RP
例:
G.判断性短语
标记符号:PP
例:
H.固定短语
标记符号:GP
例:
I.并列短语:由两个或两个以上名词、动词或形容词并列组成的短语,词与词之间是平等的联合,没有主次轻重之分。
例:报纸杂志 改革开放 观察研究 四面八方 千秋万代
结构: 名+名 :藏文信息 动+动:调查研究 形+形:雄伟壮丽 代+代:我和你 数量+数量:三斤五两
J.动宾短语:动宾短语由动词和后面受动词支配的成分组成的短语。受动词支配的成分是宾语。
例:消灭敌人 发展生产 骗取信任 爱热闹 下决心 丢下它
结构:动词+宾语(谁、什么、哪儿):下决心,骗取信任
K.偏正短语:偏正短语由名词、动词或形容词与在它们前面起修饰作用的成分组成的短语,用来表示时间、方位、处所、对象等。
例:我的母亲 前进的步伐 慢慢地走 朵花很好看 非常优雅
结构:定+中心语(名、代):可爱的人,我的老师状+中心语(动、形):独立思考,很好看
L.主谓短语: 主谓短语由表示被陈述与陈述关系的词组成的短语。
例:今天星期一 思想解放 明天六一 阳光灿烂 心情舒畅 大雁归来
结构:名(代)+动词(形容词): 解放思想 特殊短语:今天周一
M
1.名词性短语 ང་ཡི་ཕ་ཡུལ། གསེར་གྱི་དཀར་ཡོལ། མདུན་གྱི་ཅོག་ཙེ། ཕ་དང་བུ། སྲོལ་རྒྱུན་རིག་གནས།
2.动词性短语 ཉལ་དུ་སོང་། གཏམ་ལ་ཉན། ཟ་མ་ཟས། འབྲི་རུ་སོང་། གསུང་ལ་ཉན།
3.形容词性短语 བརྗིད་ཤིང་མཐོ། ཤིན་ཏུ་མཛེས། རབ་ཏུ་རྒྱས། སྙན་པའི་དབྱངས། སྤྲོ་བའི་བྲོ།
4.数量词短语 ལེའུ་གསུམ་པ། ལོ་རབས་བཞི་བ། སྟོང་ཁེ་དྲུག གོམ་པ་གང་། སྨྱུ་གུ་གཅིག
5.时间性短语 དབྱར་གྱི་དུས། ཆུ་ཚོད་བདུན་པ། ནམ་ལངས་སྐབས། ཟླ་བ་བདུན་པ། འཐུང་དུས་སུ།
6.代词性短语 ང་ཡི། ཁོ་ཚོས། སློབ་གྲོགས་རྣམས་ཀྱི། སློབ་གྲྭ་ཡི། ཁ་པར་ནི།
7.固定性短语 ཚུགས་ཐུབ་བརྟན་བརླིང་། ཁ་སྨྲས་གླིང་གཞི། སྙན་སྒྲ་ཞུ་ལོག མ་ཤི་གསོན་བྲལ། ཐབས་བརྒྱ་ཇུས་སྟོང་།
8.判断性短语 ང་མེད། དགེ་རྒན་ཡིན། སྤྱི་དམངས་མིན། ལས་བཟང་རེད། ལས་བྱ་མེད།