导图社区 语音识别概述
此篇导图与语音识别概述有关,其内容主要讲述两部分的内容:语音生成以及语音感知,同时介绍了语音识别是什么,如何评估等内容
《白话机器学习的数学》知识梳理,包含机器学习简介,回归,分类,模型的评估,使用Python实现
无线通信系统前四章思维导图笔记整理。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
语音识别概述
是什么
语音转文本
让机器“听清楚”
如何评估
错误类型
删除、插入、替换错误
指标
准确性
音素、字、词、句错误率
Efficiency
实时率
分类标准
说话人、语种、词汇量、设备、距离等
语音交互
语音链条
语音生成
信号源(声门)经过滤波器(口腔等器官)产生
清音与浊音
基频+共振峰
共振峰
决定音质
不同元音会产生不同种类 的放大或共振
第一和第二个共振峰(F1和F2)对于区分不同元音尤 为重要
不同声调
根据基频变化不同而定义
音素
定义
一种语言中语音的“最小”单元
分类
辅音
发音位置分类
唇音、齿音等
发音行为分类
爆破音、鼻音、摩擦音等
元音
高度、前后、圆度等
协同发音
音素和上下文相关
音素抄本
一段语音对应的音素列表
词/语素
一种语言中最小的具有语义的结构单元
音节
元音和辅音结合构成一个音节
对语音识别的意义
直接使用声学语音特征
信号的处理
源-滤波器模型
激励信息提取
建模单元选取
协同发音:上下文相关模型
决策树聚类
语音感知
接收器官
人耳
外耳、中耳、内耳
感知量(主观心理)
响度
与声音强度有关
闻阈与痛阈
等响度曲线
单位:phone(方)
音色(音品)
与频谱形状有关
音调(音高)
与基频有关
转化公式
单位:Mel(美)
掩蔽效应
指一个较强声音的附近,相对较弱的声音不易被人耳察觉
同时掩蔽(频率掩蔽)
异时掩蔽(时域掩蔽)
特征工程、MFCC、PLP等
语音编码、增强等