导图社区 实验语音学-孔江平
这是一篇关于实验语音学的思维导图,主要内容包括:声学基础(熊子瑜),语音的多模态和语音应用研究,信号采集和田野录音,语音的感知,韵律和情感,语言的发声类型,调音、共振峰和元音,基频、音高和音调,语音声学基础(孔江平)。
编辑于2024-11-16 20:22:25实验语音学
语音声学基础(孔江平)
声学基础
声音
由振动形成的一种纵波,传播方向与振动方向一致
在十五度的空气中传播速度为每秒340米
声波
按照正弦的方式振动
特定正弦函数的值

声波基本定义

纯音
纯音产生的示意图

声压比
声压
声波对空气的压力,通常用作用于单位面积上的力来表示,单位是达因/平方厘米
强度比
声强
声音的功率,单位是格尔/秒,1格尔表示1达因的力使物体移动一厘米所做的功
垂直于波传播方向的单位面积的功率为波的强度
响度级
人的主观感觉上与该声音相同的1000赫兹纯音的响度级,单位是方
由声压和频率决定,反映之间关系的图线叫等响线
响度级(LN)和响度(S)之间有确定的关系,响度级每增加十方,响度增加一倍
响度
人耳对声音的主观感受,单位是宋, 频率为1000赫兹声压级为40分贝的纯音响度为1宋
分贝值
分贝是相对的感知量
声压、声强和分贝对照表

如果一个录音室的本底噪音是20分贝,其隔音和消音的效果就很好了
共振
固有振动频率
声波的压力叠加
声波的叠加
自然界中的波基本都是多个正弦波的叠加
叠加过程的数学表示:傅里叶系数

波形叠加示意图

声波的相位
相位
反映声波某一时刻的状态
波形叠加的相位

语音声学基础
简介
语音信号是人类言语链的一个环节,是语言表层的一种信号形式,具有声学特性以及自己的特性
人耳的听觉范围:20hz-20000hz,最敏感的范围是1000HZ-3000HZ,刚好是元音的频率范围
言语产生包括三个方面:声源、共鸣、辐射
从生理角度看
声源
声带振动可形成声源
发音器官爆破可形成声源
发音器官气流摩擦可形成声源
共鸣
不同声道形状造成的元音共鸣
不同声道形状造成的塞音共鸣
不同声道形状造成的擦音共鸣
辐射
不同唇形造成的声音放大
从频谱角度看
声源
声带振动形成的声源频谱通常用每个倍频程下降12分贝来表示
发音器官爆破形成的声源频谱通常用一个单脉冲来表示
擦音的声源频谱可以用一个全频的白噪音和共鸣特性来表示
共鸣
元音的共鸣体现为共振峰结构
塞音的共鸣体现为发音时发音部位的共鸣特性
擦音的共鸣体现为形成擦音缝隙时口腔的共鸣特性
辐射
唇辐射的频谱体现为发音时唇的形状,通常用每个倍频程提高6分贝来表示
言语产生的基本框架
 
元音声源
声带在声门下压的作用下往复开合形成的声源脉冲
特性体现为不同的谐波组合,其中各谐波的频率是第一谐波的倍数
元音声源生理、时域和频域示意图

辅音声源
辅音声源是湍流,湍流的确定取决于雷诺数
雷诺数是一个确定从平流到湍流的系数,可区分流体的流动是平流还是湍流

擦音和塞音的声源为湍流,在声学上体现为噪声。 这种声源通过发音部位的调节和共鸣形成了不同能量分布的辅音
辅音声源生理、时域和频域示意图

声道共鸣
口腔的共鸣特性为声管单开口共鸣,封闭的一端是声带,开口的一端是双唇,这时声管的共鸣频率为四分之一波长处
共振峰的计算:声管共鸣的其他峰值是以第一共振峰的奇数倍增长的
 
语图分析
根据语音信号的性质
宽带语图
用300赫兹的带宽分析语音
主要分析元音的共振峰横杠、浊音横杠、擦音的基频下限、擦音的中心频率和塞音的冲直条
窄带语图
用45赫兹的带宽分析语音信号
主要可以分析谐波,并从中得到音调和声调信息
通常是测量第十个谐波的数字然后除以10得到具体的声调
数字信号基础
录音技术参数
语音的量化
语音的数字化采集称为A/D(模数转换),而数字播放称为D/A(数模转换)
两个字节16位其量化的标准是0-65535,用于量化声音的数值范围是从-32768到32768,目前电脑上自带的声卡大多是16位
模数转换示意图

数模转换示意图

解说

采样频率
直接反映的是这段信号频率域的范围
采样率原理
乃圭斯特定律:频谱范围*2=采样频率
在电脑上录音时,如果只是录说话会用11025的采样频率; 如果是录音乐会用44k的采样频率
如果想要研究元音的共振峰语音的频谱都会在5k之内,只需要10k的采样率就够了,用一个比较接近2的N次方的采样频率,11025比较合适
如果只是研究声调和语调,采样率可以很低,2k即可
如果要研究辅音首先要知道辅音的频谱特性
[s]的频谱最高,上限在8K到10K之间,可以用16K的采样频率
如果要研究嗓音的抖动,可以选用48K的采样频率
语音的量化最重要的技术参数是比特值。对于一般的语音研究而言,16比特即16字节其精度足以满足声学分析的需要
文件格式
通常用.wav格式
语音文件格式表

根据自己的研究确定需要的格式很重要
语音信号处理基础
语音参数的物理意义
时域、频域、正交的原理和计算
声源是一个复合波,相位的组合是有机的而不是随意的,涉及人的生理机制和声源的内在规律
每个正弦波的相位对于正弦波的叠加很重要
不同相位正弦波的叠加

时域:随着时间变化的声压信号是语音的时域信号
时域和频域的转换
正弦波的每个点平方和后取对数就是正弦波幅度值的大小,具体的计算方法是一段正弦波的每个点平方后取对数
时域和频域示意图

将时域信号分解成正弦波
正交原理
取一段性质相同的时域信号,用一段同样长度的正弦信号和其进行每个点的相乘相加,结果会得到一个数值。改变这个正弦波的频率和幅度,再做同样的计算,又可以得到一个数值。随着这个正弦波和复合波中的某个正弦波的逐渐接近,计算出来的数值会越来越大。当一个正弦波和复合波中的某个正弦波完全相等时该数值最大。
能量、振幅、时长计算、基频提取
时域信号最常用的参数有能量、振幅、音长
能量
将波形中的每个采样点进行平方
通常会对采样点进行平滑处理,即将几个点的数值进行平均,这样能量曲线就会变得很平滑
 
振幅
语音学研究主要是用振幅
将计算得到的能量取对数就得到振幅
平滑前后波形的振幅
 
使用振幅参数的两种方式
1、计算出最大值来进行语音学描写
2、计算振幅面积(将振幅曲线进行积分相加)
分析长短音节或长短元音的感知时常用
音长
计算方式:采样点数除以采样频率
绘制语图分析频域特性的方式
利用傅里叶变换将时域信号转换为频域信号
傅里叶功率谱和对数谱

傅里叶功率谱
分析的信号都比较长至少包含了一个以上的周期
画出的语图为窄带语图可以看出声调的变化
傅里叶对数谱
先做傅里叶分析,再将傅里叶系数去对数,然后用离散余弦变换做反变换得到倒谱
倒谱的特点是将声道特征集中到信号的左端,而将声源信息集中到信号的右端
去掉声源信号,将声道信号再做傅里叶变换,就得到对数谱
对数谱很平滑,共振峰清晰可见,是研究共振峰变化和观测基频能量的有用参数
线性预测法(简称LPC法)
 
LPC是全极点模型只能计算出共振峰的频率和能量
LPC提取的极点不一定就是真正的语音共振峰
声学基础(熊子瑜)
声音
当物体振动时,会引起周围空气的波动,导致空气粒子间的距离发生疏密变化,从而引发空气压强的改变,再通过人的耳膜对空气压力的反映传入大脑,从而形成声音。
物理上讲,声音具有四个基本特性:即音色、音强、音高和音长。
声波
声波是由物体振动产生的,物体振动使周围的介质(如空气)产生波动,这就是声波。
纯音
声波的最简单形状是正弦波,由正弦波得到的声音叫纯音
复合音
由多个不同频率和振幅的正弦波叠加而成的
创建纯音和复合音
创建纯音

创建复合音
生成五个正弦波

叠加五个正弦波

可听声
可听声波的频率范围为 20Hz-20KHz,频率高于 20KHz 的声波为超声波,频率 低于 20Hz 的声波为次声波
声速
声波每秒在介质中传播的距离,叫做“声速”,用 c 表示,单位为 m/s。
声速与传播声音的介质和温度有关。
波长
沿着声波传播方向,声波振动一周所传播的距离,或在波形上相位相同的相 邻两点间的距离,叫做“波长”,用λ表示,单位为 m。
波长和声速、频率三者之间的关系:λ=c/f。
振幅
振动物体离开平衡位置的最大距离,叫做振动的“振幅”,通常用符号 A 表示
简谐振动的振幅是不变的。强迫振动的稳定阶段振幅也是一个常数。阻尼振 动的振幅逐渐减小,振幅是可变化的。
振幅是用来表示振动强弱的物理量
分贝
分贝是增益或衰减单位,用于描述两个相同物理量之间的相对关系。

分贝的计算(代表被测量比基准量高出多少“级”)

对于振幅类物理量,如声压、电压、电流强度等,将被 测量与基准值相比后求常用对数再乘以 20
对于它们的平方项的物理量如电功 率、声功率和声强,取对数后乘以 10 就行了。
如果需要表示的量小于与其相比 的量时(即比值小于 1 时),则 dB 数前要加一个负号。
声强--声强级
声强
声强是衡量声音强弱的一个物理量
声场中,在垂直于声波传播方向上,单位时间内通过单位面积的声能称做声强
声强常以 I 表示,单位为 (w/m2 )。
声强实质是声场中某点声波能量大小的度量
对平面波来说,声强 I 正比于声压有效值的平方。
声强级
声强级是相对于参考声强的分贝数
声强 I1 的声强级 LI 为

声功率--声功率级
声源在单位时间内辐射的总声能量称为声功率
常用 W 表示,单位为瓦(w) 或 mW(毫瓦)或 μ W(微瓦)。
声功率是表示声源特性的一个物理量,大小只与声源本身有关
声功率越大,表示声源单位时间内发射的声能量越大
声功率级是相对于参考声功率的分贝数
声功率 W1 的声功率级 LW 为

声强和声功率通常不易直接测量,要根据测出的声压通过换算来求得
声压-声压级
声压常用来衡量声音的强弱
某一瞬间介质中的压强相对于无声波时压强的改变量称为声压,记为 p(t),单位是 Pa。
人耳感受到的实际声压只是一个平均效应
有效声压取瞬时声压的均方根值,故实际上总是正值。

声压级
为了计算上的方便,同时也符合人耳听觉分辨能力的灵敏度要求
从最弱的声压(2×10-5 Pa)到最强的声压(20 Pa),按对数方式分成等级,以此作为衡量声压大小的常用单位,这就是声压级。
声压级的单位为 dB。

声压级不能直接相加,作用于某一点的两个声源声压级相等,其合成的总声压级比一个声源的声压级增加 3dB。

下面以 16 位采样精度为例,加以说明每个采样点声压的计算。

Praat 软件可察看语音文件的振幅特征

响度--响度级
响度是人耳对声音强弱的主观评价尺度,它主要决定于声压,而且与频率和 频谱有一定的关系。
响度≠声强
响度用单位宋(sone)来度量, 将 1000Hz、40dB 的纯音所具有的响度定义为1 宋
响度级
响度还常用对数值来表示响度级,单位为方(phon)
响度级的定义是:将一个声音与 1000Hz 纯音作比较,当听起来两者一样响时,这时 1000Hz 纯音的声压级的数值就是这个声音的响度级。
响度加倍或减半,响度级增加或降低 10 方。
它们的关系可用下列数学式表示
 其中 N 表示响度,单位为宋,LN 表示响度级,单位为方
响度级之间不能直接相加,而响度可以相加。应先将各响度级换算成响度进行合成,然后再换算成响度级。
频率--基频--音高
单位时间内(每秒)物体振动的次数,称为“频率”,用 f 表示,单位为赫兹。
自然的复合音的基音的振动频率称为基频
人工合成的声音或者通过滤波处理后的声音(如过滤掉一些低频成 分),其基频并不等于第一谐波的频率。
音高是人耳对物体振动频率的听觉感受,其高低主要决定于声波频率
对复合波音高的感知,主要决定于基频。
基音--陪音--谐波--分音--泛音
通过一定的方法可以把复合音分解为一定数目的纯音,这些被分解出来的纯音在物理学上被称为“分音”,在电声学上被称为“谐波”
那个振幅最大、频率最低的分音,被称为“基音”,也被称为“第一谐波”
其他分音的振幅一般都比基音的振幅小,而频率都是基音的整数倍,这些音被称为“陪音”,在音乐中也被称为“泛音”
纯音--复合音
声波分简单和复杂两种形式。
简单
由单一频率的正弦波产生的声音是纯音,如音叉的声音
纯音是最简单、最单一的振动所产生的声波
物理学上用频率和振幅两个特征来说明纯音的性质。
复杂
复杂的波形是由若干个不同质的纯音融合而成。
不同频率和振幅的纯音相混合而成的声音称为复合音
音色
人耳对声音频谱特征的感知效果,称为“音色”
音色是人耳能够区分发自不同声源的同一个音高的声音的主要依据
音色决定于陪音的多少和它们的相对强度。
陪音的数量和振幅的不同构成音色的频谱特性曲线。这条曲线就体现了音色的表现力。
乐音--噪音
声音按照它们是否有周期性而分成两类,即乐音和噪音
乐音是周期性或准周期性的声音振动。如音叉声。
噪音是非周期性的声音振动。如流水声。
噪声的判断还与人们的主观感觉和心理因素有关,即一切不希望存在的干扰声都叫噪声
听阈--痛域--等响曲线
强度是听觉的基础。
引起听觉的最小强度称为听阈。
人耳的听阈随着声音的频率不同而有变化。
听阈的单位用分贝来表示。
音强超过 140 分贝时,便在耳膜引起疼痛感觉。
人耳的痛阈受频率的影响不大
听阈和痛阈是随声压、频率变化的。听阈和痛阈随频率变化的等响度曲线之间的区域就是人耳的听觉范围
等响曲线是反映人耳对声压的主观感受的曲线。
等响曲线族表明了不同频率的声音产生同样响度时所需要的声压级数。
它是用 1000Hz 的纯音作为参考频率,并选定参考频率的声压级,调节其它频率的声压级,直到它们被认为响度相等为止。
以横坐标表示频率,纵坐标表示声压级(dB),中间的曲线代表相等的响度级(方)
1、两个声音的响度级(方)相同,但声压级不一定相同,它们与频率有关 2、两个声音的响度级(方)及声压级(dB)只在 1000Hz 才相等 3、在高声压时,各频率的听感等响基本相同。在响度级大于 80 方的强大声音时,响度级主要决定于声压级(dB),而与频率几乎无关 4、高频段的响度变化与声压级增量基本一致;低频段声压级的微小变化会导致响度的较大变化。
频谱图
任何一个声音都可以分解成为一个或多个纯音来,这个分解过程就称为频谱分析
频谱分析的结果是为了得到这个声音的频谱图,将分解出来的每个纯音分 频率和振幅两个维度做在一张图上,纵轴表示振幅,横轴表示频率
离散谱
连续谱
离散谱
周期性复合波包含数目一定的频率成分,它在频谱图上呈现为分立式的线条 状谱线,在频率轴上只有基频整数倍的位置上可能有振幅值,其余位置均为空, 这种频谱称为“离散谱”,又称“线状谱”
元音的频谱就是离散谱
元音/i/的某个时刻点的二维频谱图

可以分析每个谐波峰的中心频率和能量,测量该声音的这一时刻点的音高值,通常取其第 10 个谐波 f10 的中心频率值再除以 10。
连续谱

非周期性复合波包含为数众多的频率成分,它在频谱图上呈现为密密麻麻、 分析不开的谱线,这种频谱称为“连续谱”
清辅音的频谱就是连续谱
谱包络
在二维频谱图中,用来表示频谱大体趋势的曲线,称为“谱包络”
/i/的二维频谱图所做的谱包络

语图
用语图仪画出来的频谱图,称为“语图”
宽带语图
窄带语图
窄带语图和宽带语图都是三维的:横轴表示时间,纵轴表示频率,第三维 用灰度(或彩色)表示某一时刻某一频率分量的振幅。
窄带语图因其带宽比较窄,频率范围可以分解出较多的区段,因此频率分辨率 较高,但在时间维度上,窄带语图因其分析窗口比较长,因此时间分辨率较低
宽带语图因其带宽比较宽,频率范围只能分解出较少的区段,因此频率分辨率较低, 但在时间维度上,宽带语图因其分析窗口比较短,因此时间分辨率较高
分析窗口的长度至少应该包含乐音的一个周期。
宽带语图
 上半部是声音的波形图,下半部就是宽带语图。
用语图仪或声谱仪中宽带(带宽通常是 300Hz)滤波器作成的语图,称为“宽带语图”,其水平方向为时间,竖直方向为频率,用颜色的深浅表示强弱。
分析浊音时,这种语图显示出一条条纵向条纹,两条纵向条纹之间的时长就表示浊音周期。
通过宽带语图可以看到几条较粗的横杠,显示出元音的几个共振峰,量出 其高度,即可换算得共振峰的频率值,因此可以用来分析音色。
窄带语图
 上半部是声音的波形图,下半部就是窄带语图
用声谱仪或语图仪中的窄带滤波器(带宽通常为 45Hz)做出的语图,称为“窄带语图”,其水平方向为时间,竖直方向为频率
这种语图显示出一条条水平条纹自下而上依次表示元音的各个谐波,最下面的一条通常为基音
量出第 n 条谐波的高度,换算出其频率数,再除以 n,就可以求得基频值 f0。
窄带语图主要用于分析谐波特性和音调特点。
横杠
由于共鸣作用,语音在某些频率区上的能量较强,在三维语图上表现出浓度较深的横条,称为“横杠”,可以根据浊音横杠的中心频率位置来分析它的音色特性。
F1、F2、F3

共振峰

在特定的频率区域聚集大量声能的语音表现,称为“共振峰”。
在言语产生中,任何声道结构都有共振,因此就会出现共振峰。
元音共振峰在三维语图上明显地呈现为粗黑的横杠。
最低的三个共振峰最有特点,称为第一共振峰(F1)、第二共振峰(F2)和第三共振峰(F3),在声学语音上就是根据这几个共振峰的位置来区分不同元音的。
[m]、[n]等浊辅音有类似于元音的共振峰,擦音和塞擦音等清辅音表现出类似于共振峰的强频区
红点表示共振峰的中心频率
乱纹

非周期性延续音在三维语图上的一种形似“雨潲”表现,称为“乱纹”
乱纹虽然没有明显的共振峰,但有能量集中区痕迹,它是擦音在语图上的典型特征
冲直条
塞音爆破时有一股较强的气流冲出,在语图和一般频谱中表现为一条较窄的 竖条,称为“冲直条”

基频、音高和音调
基频、音高和声调
基频(物理量概念)
声带振动的快慢造成的声音准周期的变化
音高(心理学概念)
音高是人们对声音高低的感知
如果用纯音,主观感觉的音高单位是“美”(mel),通常定义响度为40方的 1kHz纯音的音高为1000 美
基频和音高关系示意图

声调(语言学概念)
由于从基频这个物理量大致可以确定一个声调的范围,所以常常通过基频来确定和研究声调,但它并不完全等于声调。
影响因素:基频、发声类型的作用、音响的作用、颤音对音调感知的作用、不同的元音对音调高低的感知
基频和音高也能用来研究非声调语言中的重音语调等语音学现象
中国语言的声调和音调
中国有汉藏、阿尔泰、印欧、南岛和南亚五个语系
中国的汉藏语系可以分为汉语及其方言、藏语及其方言、壮侗语族语言、苗瑶语族语言和彝缅语族语言。
在产生声调的藏语方言。从汉藏语系所有的语言来看,只有藏语的三大方言存在从无声调到有声调的方言分布,对研究声调的起源是非常有用的一个活的语言资料,是声调产生过程的活化石。
紫云苗语只有五个平声。众所周知,声调主要靠基频的变化来区别意义,因此紫云苗语是一个非常难得的研究声调的样本。
彝缅语族语言里有大量的发声类型,即它们的元音有松音和紧音存在,从生理和声学的角度来看,包括气嗓音、正常嗓音、紧嗓音、挤喉音等嗓音发声类型。这些语言里有些音节的基频完全相同,只是发声类型不同。不同的发声类型使得声调有不同的调质,可以称为紧调和松调。
阿尔泰语系里面有三个大的语族:突厥语族,如维吾尔语和哈萨克语;蒙古语族,如蒙古语和达斡尔语;满—通古斯语族,如满语等一些语言。这些语言没有声调,但有丰富的重音和句子的音调。另外,阿尔泰语系语言有元音和谐现象。这些都构成了阿尔泰语系语言的语音特点,需要深入研究。
汉语的声调应该说在隋末就已经被明确提出,称为中古音

基频的提取方法
最简单的提取基频的方法是从语图上直接读取基频的数据
 
具体方法
1)录入一段要分析的语音;
2)将语图设置成窄带语图;
3)从语图上选一条谐波,通常是第十谐波;
4)将光标放在这个谐波的不同位置,读出基频数据。
根据语音准周期性的特性
最常用的是自相关法提取基频的算法(首推)
原理是利用声带振动的准周期性,计算语音信号周期的相关性。
操作
取一段信号,在这一段信号里面必须包含有一到两个周期。
把这个信号先去做一个带通滤波,去掉多余的低频和高频信号。
低频可以定在50Hz,因为中国的交流电频率是50Hz,能去掉语音信号中的电噪声。 高频可以定在800Hz,人们的基频一般不会超过这个频率。
具体自相关计算步骤是:
1)将信号复制成两份;
2)对两个信号的每个点做相乘和相加;
3)进行一个移位后再相乘相加,直到每个点移位完成;
4)计算后得出的曲线就是自相关曲线。
如果一段语音信号是周期性的,在移位到了下一个周期时,它的峰值会变得非常高,测定这个峰值就能算出基频
另一种常用的提取基频的算法是倒谱法
原理:傅里叶变换
具体步骤
1)拿一段信号,这段信号里至少要包括一到两个周期;
2)拿这段信号先去做傅里叶变换,得到傅里叶系数;
3)将傅里叶系数取对数;
4)进行一个反变换,将声道和声源分离开;
5)这时左边的信号表示的是声道特性,右边的信号可以明显看到有一个脉冲,计算这个脉冲的时长就能得到基频。
其他作用
计算次谐波
次谐波是基频在语音中表现出来的一种常见的现象,往往会出现在句子的末尾,其频率比实际基频要高出一倍,对研究声调和韵律都十分有用。

提取一个语音信号中两个叠加的基频,达到分离声源的目的。
信号不是准周期性(汉语上声常常会出现挤喉音,特点是基频不规则)
小波变换

提取基频
小波变换主要是利用小波基对一个信号进行变换。
好处是同时有时域和频域的精度
通常用二阶小波变换
在研究基频抖动方面非常有用
检测声门的打开点和关闭点
在研究嗓音方面非常有用
基频的数据处理
需要数据处理的原因
一个音节的起始和结尾,即使声音很弱,也会提取出基频参数。因为振幅特别弱,这时的基频我们是听不到的,因此应该去掉。
语图处理的方法
简单但不精确
一般来说,可以人为根据三维语图进行处理,即只选择语图中共鸣比较强的音段,语图上前后显示非常弱,看不到高次共振峰或者说没有共鸣的部分,可以删除不用。
科学的方法
振幅量曲线,将振幅曲线做微分,微分后的振幅信号会出现两个尖的峰值,这两个点之间的基频就是要保留的基频数据。

原理是微分信号中的这两个点就是能量曲线中变化最大的点,或者说是斜率的最大值
根据振幅曲线来确定基频

具体的做法是确定一个振幅的阈限值,比如选择50%,低于50%的相对应的基频就删去不用。当然,是降50%还是降70%,这要根据具体的情况来进行处理
多样本数据的平均:基频归一化

时间的归一化
将基频参数先插值,然后根据需要按时间等长抽取出所需要的基频数量
频率的归一化
先对基频数据进行插值,然后根据需要按频率等距离抽取基频数量
提取不到对应的基频参数
声调在低频处会形成挤喉音

方法
利用多项式拟合将数据补齐
原理
利用多项式根据数据的趋势预测出空白段的数据
音节中间大部分没有声带的振动

如果知道无基频段其实是发音人的基频下限,就可以用基频的最低值将其补回来,但感知上还需要进一步研究

五度值的转换
目前在国际上普遍使用半音法描写声调,掌握半音法是研究声调的基础
    
声调的感知因素
振幅的因素

当振幅变小时,人们对声调的感知就会变弱
基频斜率的因素
 
频率和时长之间有比例关系,用斜率来表示,会直接影响到对声调的感知
发声类型的因素

谐波的因素
谐波变化的两种情况

谐波整个下倾
人对音高的感知取决于第一谐波的数值和第一谐波与第二谐波的差值
谐波一高一低的分布
影响到共振峰,进而影响到音高的感知
用声学方法研究声调的误区
基频不能完全等同于声调

调音、共振峰和元音
元音的发音性质
共振峰(F)
读语图识元音
A类
第一类是a类,包括五个韵母,分别是a、ai、ao、an、ang
O类
第二类是o类,主要选择了o和 ou两个韵母
E类
第三类是e类,主要选择了e、en、er三个韵母
I类
第四类是i类,一共包括十个韵母。这里用零声母音节yi、ya,ye、yao、yan、yang.you、yong、ying和 yin为分析样本
U类
第四类是u类,包括八个韵母。这里用零声母音节wu、wo、wai、wei、wan、wang、 wen、weng为分析样本
V类
第六类是ü类,主要包括四个韵母。这里用零声母音节yu、yue、yun和 yuan为分析样本
共振峰的提取
用数字信号提取共振峰
从语图上手工确定共振峰参数

用线性预测的算法来提取共振峰

用倒谱法提取共振峰
 
声学元音图
静态
通常是将第一共振峰和第二共振峰标在一个二维坐标上

动态
将体现元音变化的多帧数据画在声学元音图上来体现动态的变化过程

分析
第一共振峰
和发音的开口度有关
第二共振峰
和发音的前后有关
第三共振峰
和唇的圆展有关
研究方向
二合元音的滑动过程
元音的儿化过程
反共鸣
是一个声谷,语图上是很浅的颜色无法发现
耦合现象
言语产生要经过一个单开口的均匀管子,这个歌款子的第一个共振峰是他的四分之一波长的地方,高次共振峰按奇数增长
由于说话时管子前后发生了变化,及前腔和后腔大小的变化,均匀的共振峰就会移动
不仅共振峰发生移动,还会造成原来谷底的加深,这就是零点
在言语产生中,明显的两根管子会产生明显的零点
鼻音会形成零点
声门开合也能形成零点
梨状窝下陷也可造成零点
语音量子原理
本质是声道和声学之间的关系的研究
声道由发音器官组成,但是在发不同音的时候声道的形状一直在变化,主要就是前腔和后腔大小的变化
主要内容是将语音产生的生理参数,声学参数和感知之间的非线性关系定义为量子关系
研究现象和问题
舌下腔问题
如果舌头抬起把前腔和后腔分割成两个部分就形成了舌下腔
发儿化音的时候舌下腔变化声学上不一定会有变化,但达到一定界限之后,只要舌下腔有一点小的变化就会导致声学上较大的变化
语言的发声类型
谐波分析
本质:语言发声研究方法
内容:功率谱分析
声学原理根据:谐波分析法在声学原理上的根据是声源能量谱的特性, 即声源谱高频能量强会导致第二或第三谐波的能量大于第一谐波的能量。
具体方法:测量谐波的最大值
效果图

图像分析
 
描写语言发声类型的差异
通过测量第一、二谐波的能量来判断嗓音发声类型的不同。一般是使用第一、二谐波之比的方法,或者用第一谐波减第二谐波的差值
缺点以及改善方法
不足

改进方法一:从分析样本入手

改进方法二:从研究方法入手

改进方法三:从信号处理入手

逆滤波分析
本质:一种从语音中提取嗓音声源的方法
言语产生和逆滤波的原理
示意图

图像解读
上图是言语产生的原理,声源用线谱来表示,共鸣用滤波器来表示,唇辐射和语音输出用线谱图加共振峰包络图来表示。
中图为逆滤波的原理,一段语音经过逆滤波得到声源,逆滤波是将原共鸣特性反过来设计滤波器,这样就可以将语音中的共鸣去掉,最终得到声源
下图为声源和语音的关系,这一部分对于理解逆滤波最为重要。我们通过发声的生理研究知道,肺部气流冲破关闭的声带使声带振动产生声源,气流冲开声带形成的空隙称为声门,单位时间内通过这个空隙的气流为声门气流,一般用体积流速度表示。

上半部分
对口腔气流进行逆滤波得到声门气流
从声门面积推算声门气流
下半部分
从声压经过逆滤波得到声源
从声压经过逆滤波得到声源的基本方法
提取声道共鸣的特性,一般使用自回归模型,具体来讲就是线性预测
言语产生的基本时间离散模型

两种不同的线性预测逆滤波方法
  
线性预测逆滤波的不足与改进:零点

滤波器组

通过人工干预极点和零点的参数
频谱倾斜率分析
嗓音发声类型实证测量的依据
人类言语嗓音的基本特性是每个倍频程下降12分贝。由于发音人、性别和语言不同,这个数字会发生变化。如果一种语言中有不同的发声类型,嗓音的频谱倾斜率就会有较大的差别
语音分析的预处理
言语声波是通过共鸣以后发出来的,因此加入了声道的共鸣特性。如果要测量贮音的频谱倾斜率,首先就要对语音进行逆滤波,在去掉了语音的共鸣特性后,才可以对信号进行频谱倾斜率的测量,
零点问题为何可以忽视?

具体做法

普通语音功率谱 VS 频谱倾斜率示意图
 
应用领域

多维嗓音分析
本质:一种通过声音检测嗓音质量、发声类型和诊断嗓音病变的声学方法
三个方面
 
信号录音
 
算法
绝对频率抖动

频率抖动百分比

参数
基音基础参数
频率抖动参数
振幅抖动参数
嗓音指数
嗓音清化参数
基本参数
优点与应用
从以上的数据可以看出,多维嗓音分析是一种从声学的角度描写个人嗓音特性、区分嗓音性别、鉴定嗓音声纹、量化不同语言嗓音和诊断嗓音病变的有效方法。
对不同声乐形式的嗓音类型进行研究
声门阻抗分析
本质:声门阻抗信号是通过声门仪( laryngography,通常称“喉头仪”)采集的涉及声门变化的生理电信号,也称作“电声门信号”
研究领域
语言的发声类型

从声门阻抗信号中可以提取出许多参数用于嗓音发声的描写、研究和建模。其中有三个参数最为重要
 
基频
开商
速度商
基本定义
从言语信号的物理意义上讲
 
从声源信号上讲

从声门抗阻信号上讲

基频、开商和速度商
描写和定义不同的发声类型
描写汉语声调的嗓音发声模型、民族语言中元音的发声类型、汉语韵律研究的嗓音模型、病变嗓音的性质、声纹鉴定、声乐研究中的不同唱法和唱腔
发声类型特征表

发声类型区别特征表
 
声学发声图

嗓音音域分析
本质:研究和测定嗓音的方法,通过测定发音人的音域范围来确定一个人的嗓音特性
具体方法

音域示意图与解读

应用
对一个人或者一种语言的音域范围进行定性的描写、研究和建模

嗓音分析方法的发展
在我们选择研究方法时,并不一定非要选择最复杂的研究方法,而是要根据研究对象和研究目的选择最适当的方法,这样才能得到最为有用和可靠的数据,从而揭示贮音发声的内在规律,达到研究的目的。
新的研究热点

韵律和情感
韵律与情感
韵律范畴
在讨论韵律时,通常将注意力放在语言正常的语流研究上,如陈述句和疑问句的不同、焦点重音的语音性质、诗词韵文的特殊语调等。
情感范畴
在讨论语言的情感时,通常将重点放在个人对语言表达的处理上,如喜怒哀乐的语音表达。
两者界限模糊
语音学的主要任务是研究语言交际过程中语音的性质
研究不同语言本身在语流中的特有形式和类型是韵律研究的范畴,它和语言的知识相关。
切入角度:类型学的视角
语言类型的不同会体现在语言的表达上
案例
汉语:分析性语言,声调语言
声调语言,声调、焦点重音和句调共同构成了韵律的主体
维吾尔语和蒙古语:粘着型语言
基本词语重音、元音和谐、重音和句调是这两种语言韵律的基本内容
语言的情感基于语言的韵律,这是因为情感要通过种语言自己特有的韵律形式和类型来表达。语言的韵律形式不同,表达方式不同
韵律与情感的划界

呼吸与韵律
能够采集呼吸信号的设备和仪器
从使用方法上看,最简单的呼吸采集器是呼吸带
原理与使用方法
 
自然呼吸信号的示意图与分析

胸呼吸、腹呼吸和语音三种信号
 
呼吸定义

利用呼吸定义可进行的研究
根据对呼吸信号的定义,利用程序可以自动提取呼吸的参数,进行言语呼吸和韵律的研究,也可以进行其他声乐和口传文化的研究。
案例:汉语普通话不同文体风格
五言绝句腹呼吸

《赤壁怀古》朗读的腹呼吸和语音信号

新闻朗读的腹呼吸和语音信号

散文朗读的腹呼吸和语音信号

典型的胸呼吸模式与语音

典型的腹呼吸模式与语音

基频与韵律
韵律研究最常用的参数:基频
原因
1)基频和句子韵律的关系十分密切;2)基频是比较容易提取的参数;3)基频在句子里十分稳定;4)基频和音高的感知密切相关。
介绍利用基频研究句子韵律的基本方法
汉语普通话陈述句和疑问句的基频模式

在汉语普通话中,人们常常使用窄焦点来表示对某些事物和行为的强调,而利用基频可以对窄焦点进行有效的研究。
汉语普通话窄焦点基频曲线重叠示意图
 
汉语普通话窄焦点基频模式

发声与情感
嗓音参数是进一步研究韵律和语音情感的重要参数
基频、开商和速度商这三种典型的嗓音参数解释“我上班去”这句话的正常、欢喜和气愤三种情感的不同
三种情感的基频模式示意图与分析
 
三种情感的开商示意图与分析

三种情感的速度商示意图与分析
 
通过以上的分析可以看出,嗓音参数(包括基频)在不同情感中的变化很大,这表明嗓音在语音情感中是最为重要的声学参数,这一点也能从语言参数合成中体现出来。
语音的情感研究也正在摸索中,这就是为什么目前还没有一个语首合成系统能够为一部电影配音。但这正好表明了语音情感研究领域的广阔前景

语音情感的复杂性
目前语音情感的研究有很多认识上的误区。
语音情感的形式只代表了语音情感的一个方面,而听话人的感知才是决定性的一面
 
语音的感知
语音感知研究
现代语音学研究内容
研究各种语音特征对音位的贡献,即研究哪些语音特征是区别性特征,哪些是羡余性特征以及它们对音位感知的贡献量有多大。
语音感知的行为学方法
通常是合成一个语音样本。样本中有一个变量不同,这就需要进行语音的合成,使得某一个语音变量不断地变化。在听辨了这些样本后,分析听辨的结果。比如,合成数个音节,使音节的声调从阴平55变到阳平35,根据听辨结果找出声调的感知范畴。
听辨测试
辨认实验(identification)
辨别一个语音样本是否为某一个目标样本
区分实验(discrimination)
区别两个样本是否不同
科学仪器
脑电仪(ERP)和功能性磁共振成像(fMRI)
音位学语音感知的方法
具体是让发音人辨别两个音是否具有不同的语言意义,语音是作为一个整体被感知的
语音感知上的差异主要是通过语音结构来进行。因此,音位学感知的区分是通过对立、互补、相似等音位学的原则来实现的。
通过音位负担量的计算可知,一个音位对立的负担量并不相同

现代语音学目前只是研究两个音位之间的感知,还做不到研究多个音位之间的感知
语音感知样本合成
数字合成器
主要有霍姆斯的并联电路合成器和克拉特的串并联电路合成器
原理
1)利用抛物线函数合成一个元音脉冲; 2)通过一个串联电路的合成器合成出不同的共振峰; 3)通过一个辅音声源合成器合成塞音和擦音声源; 4)通过一个并联电路滤波器合成不同的辅音; 5)将合成的音段连接起来输出语音。
元音的感知
研究内容

对元音共振峰结构的感知研究
共振峰结构分布的感知研究示意图

共振峰结构的感知研究的具体做法
 种语言标准音进行确定
共振峰和基频相互影响的感知研究
主要用来测试基频对元音的影响
具体方法

元音音长的感知研究
主要是针对某些语言中元音长短和音质共同承担音位区别时确定音位特征的研究

具体做法

塞音的感知
塞音的感知主要是靠后接元音第二共振峰的走向,即音轨的性质

根据这一特性,用于塞音感知的合成样本主要是改变音轨的频率,有人用音轨方程来描述
研究表明,塞音的感知属于范畴感知
塞音感知示意图
 
塞音VOT的感知
塞音的VOT和清浊的感知有密切的联系
这种实验主要用于测试不同语言塞音清浊感知的边界
甚至有人认为VOT和遗传有关,这是因为初生的婴儿对VOT都有比较相同的感知能力。
具体做法
从浊塞音逐渐合成到同部位的清塞音或送气塞音,然后进行听辨实验,从而找出基于VOT参数的清、浊、送气塞音的感知范畴
塞音VOT听辨结果示意图

声调的感知
声调之间的感知基本上都是范畴感知
但也有研究表明,如果调形相同,只是音高不同,其感知范畴就会削弱
声调的感知影响因素很多
发生类型
元音长短
音节结构
声调感知研究的具体方法

阳平和阴平感知合成样本示意图

确认和区分实验结果

声调感知研究中可能出现的问题
合成样本的参数的精确度和自然度

基频和发声的感知实验
难点:无法简单地将基频和发生对声调感知的贡献分离开
解决方法:直接利用目标样本的发声类型
汉语禹州话声调基频曲线图

禹州话阳平和去声感知样本

禹州话阳平和去声感知结果

发声类型的感知
真正的嗓音发声类型感知研究很少的原因
一是对语言发声类型感知的主要性质了解得还不是很清楚; 二是语言发声类型的参数合成还有一定的困难。
嗓音发声类型的特征
时域:基频的抖动(jitter)和振幅的抖动(shimmer)

频率域:基频、开商和速度商
研究的前提:合成出高自然度的参数可控的嗓音声源信号

语音感知的其他因素
麦格克效应 McGurk effect
简介

启发

信号采集和田野录音
录音笔录音
一定要选择 wave格式,而不要选择mp3格式。

麦克风的指向性

最好把录音笔放在一个固定的位置

录音设备通道

电脑录音
硬件
话筒

喉头仪

调音台与外置声卡

软件
通道的设置

录音软件-要能够监测信号的大小
 
语音多模态信号采集
现在的多通道录音设备主要是电脑来控制的录音系统。

在采集多通道信号时,信号性质的不同会带来不同的问题
 
生理和心理变化的信号主要是心率和指电压。

有一点需要注意,这就是幅度。

在没有多通道录音设备时,如果需要进行多通道的信号采集,可以用多个双通道声卡来采集,但方法上会比较麻烦。

视频信号采集
视频信号主要是对唇形进行分析和建模,即将采集的视频信号用于唇形的检测和参数提取,并通过唇形参数研究它们和语音之间的关系。视频信号的另一个用途是研究语音情感的表达过程中面部表情和语音的关系。现在视频采集设备发展很快,一般的摄像机都已经达到了高清。通常情况下,一个小型的高清摄像机的效果就已经能满足研究的需要。
摄像的采样频率也十分重要

最后一点是关于灯光。
  
修建录音室
第一个要注意的问题是录音室技术参数。

第二个要注意的问题是选址。

第三个要注意的问题是录音室要有控制室

第四个要注意的问题是要安装一台对讲机。
第五个要注意的问题是电路噪声。

第六个要注意的问题是通风。

第七个要注意的问题是灯光。

最后一个要注意的问题是导线

田野调查的录音环境
第一个是录音场所的问题
 
田野录音时,电压是一个非常麻烦的问题。

做田野录音时,设备的性能很重要

去掉噪音的问题

文件管理
及时检查录音质量

随时记录发音人的信息

每天的录音文件必须做备份

语音的多模态和语音应用研究
唇形模型研究
唇形在言语习得和言语活动中非常重要

唇形的自动检测和识别方法

二维唇形模型的定义
 
三维唇型模型

唇型模型的应用

声道模型研究
研究技术
X光技术
超声波技术
基于磁共振成像的语音发音动作研究
二维声道图

超声舌面图

磁共振三维声道图

嗓音模型研究
嗓音的基础生理研究
高速数字成像技术
研究声带振动和发声类型的最先进的技术
具体是利用高速摄像机拍下声带的振动录像,通常一秒钟3000帧至9000帧,经过数字图像处理,提取出相关参数来描写和定义语言的嗓音发声类型
声门图像预处理过程
 
模型
声门参数定义
 
动态声门模型基本定义
 
多维嗓音的应用
多维贮音是另一种嗓音模型,它不仅能用来确定嗓音发声类型,在应用上也可以用于嗓音的评价

嗓音视觉反馈康复和嗓音声乐教学
肺模型研究
现代技术可以通过磁共振来采集肺的二维形态数据,也可以采集肺的三维形态数据。动态的研究可以通过呼吸带来采集肺部运动的数据,也可以通过磁共振采集肺二维动态的形态数据。
肺呼出、胸呼吸吸入和腹呼吸吸入的状态
 左图是肺呼出气的状态,其空间最小;中图是胸呼吸吸入气的状态,空间稍大;右图是腹呼吸吸入气的状态,空间最大。
肺三维静态的切片

呼吸带采集的数据
 
肺的建模
肺的建模是通过研究呼吸方式,最终达到研究语音发音特性的目的
肺不同呼吸状态合成图
  
肺的三维模型示意图
  
应用意义

电子腭位研究
电子腭位技术
  
研究辅音的发音动作
电子腭位参数示意图
 
应用意义

代偿性发音研究
忌用非通常的方式进行的语音发音活动
分类
一种是正常的代偿性发音,如腹语和含灯大鼓,这两种都是艺术发音形式
另一种是非正常的代偿性发音,如腭裂和口腔疾病产生的发音
腹语和含灯大鼓的发音方法

声纹鉴定研究
语音司法证据的研究在语音学中称为声纹鉴定,主要是通过语音声学的方法来确定发音人,以便提供司法证据。
研究方法
声学分析,通过声学分析找出发音人的个性特征
 
声纹的自动识别

声纹研究需要更加深入的基础理论研究
 
病理语音研究

语音与读写障碍研究

言语艺术和口传文化研究