导图社区《多媒体技术教程》第六章数字音频基础

《多媒体技术教程》第六章数字音频基础

《多媒体技术教程》第六章数字音频基础，期末备考知识梳理，结合自身情况有详略

编辑于2019-12-27 09:36:49

多媒体

15826638908

他的近期作品查看更多>>

《多媒体技术教程》第六章数字音频基础

社区模板帮助中心，点此进入>>

15826638908

他的近期作品查看更多>>

相似推荐
大纲

论语孔子简单思维导图
- 87.4k
- 936
- 1.1k
- 482
- 1
MindMaster
《傅雷家书》思维导图
- 133.1k
- 1.7k
- 2.7k
- 1.3k
- 0
MindMaster
《童年》读书笔记
- 45.2k
- 488
- 985
- 336
- 0
MindMaster
《茶馆》思维导图
- 12.5k
- 175
- 181
- 40
- 0
MindMaster
《朝花夕拾》篇目思维导图
- 25.8k
- 529
- 1.2k
- 301
- 0
MindMaster
《昆虫记》思维导图
- 33.0k
- 270
- 778
- 276
- 0
MindMaster
《安徒生童话》思维导图
- 18.2k
- 274
- 264
- 66
- 0
MindMaster
《鲁滨逊漂流记》读书笔记
- 21.3k
- 309
- 549
- 166
- 0
MindMaster
《这样读书就够了》读书笔记
- 97.7k
- 12.8k
- 9.0k
- 2.2k
- 0
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 10.1k
- 1.7k
- 407
- 40
- 0
Ethan

第六章数字音频基础

一、声音数字化

什么是声音

一种波动现象。没有空气就没有声音。声波是压力波（先对其数字化，再作为数字信号进行处理），径向波（但也有一般的波的属性，如反射，折射，衍射，这些特点有助于我们制造环绕声场）。

数字化

对于音频信号，采样率一般从8kHz到48kHz。人能够听见20~20kHz的声音，人发出的声音最高能够达到4kHz，现在我们能够达到的采样率大概是8~40kHz.

奈奎斯特理论

为了得到正确的采样，我们需要使用的采样频率至少是信号中最高频率的两倍。否则会出现假频（不属于原始信号的信号）。f假频=f采样频率-f真实频率，f真实频率<f采样频率<2*f真实频率

信噪比

正确信号的能量和噪声能量的比。SNR=20log10(V信号/V噪声)

信号量化噪声比

SQNR=20*N*log2+1.76=6.02N+1.76(dB) 每个采样点的量化精度是N位。一般，数字音频采样的精度是每个采样8位（相当于电话的音质）或每个采样16位（相当于CD的音质）。实际上，用12位左右就能够很好的再现原声了。

线性量化和非线性量化

线性量化

采样存储位均匀分布的离散值

非线性量化

μ律（或A律，欧洲使用A律）编码，对声音进行非均匀量化，我们愿意把更多的位用在人们感觉最灵敏的声音区域，使结果能够获得更好的分辨率。

音频滤波

对于语音信号，一般保留50Hz~10kHz;音乐信号通常从20Hz~20kHz

音频质量与数据率

带宽：指单位时间内通过的数据率

合成的声音

调频（FM）

通过在一个载波正弦信号中加入一个涉及调频信号的项使原来的正弦信号发生改变

波形表法

在波形表合成中，数字采样存储的是来自真实乐器的声音。因为波形存储在声卡的存储器中，可以通过软件来管理，所以可以对声音进行混音，编辑和增强等处理。在声音再现方面波形表比调频有着更好的效果。为了节约内存空间，还可以应用一些专门的技术，比如采样轮循，移调，数学插补以及多项式数字滤波。

二、MIDI：乐器数字化接口

MIDI概述

是一种脚本语言，代表某种声音产品的“事件”编码。MIDI文件一般都非常小。

术语

合成器

指一个独立的声音生成器。它可以该百年声音的音调、音量、音色和其他的声音特性（如激发时间和延续时间）。一个专业的合成器配有微处理器，键盘，控制面板和内存等。

音序器

最初指一种用来以MIDI数据形式存储和编辑一系列音乐事件的专用硬件，现多指计算机上用于编辑音乐的软件。

MIDI键盘

不会产生声音，而是产生MIDI指令序列。

MIDI的常用概念

MIDI通道是用来分隔消息的，某种乐器和一个专门的MIDI通道相对应，一共个通道，按照0~15编号。消息的后四位（重要性最低的位）用来存储通道编号。

系统通用消息

消息的前4位全是1

声部

指一个声音模块同时能播放的不同的音色和音调

音色

特指想要模拟的乐器

复音

能同时发生出的声部的数目。一个典型的语音模块应该能够产生有64声部复音，同时又是“16部多音色”。

MIDI硬件

含有一个31.24kbps的串口连接。MIDI器件可能是输入器件，或者是输出器件，不可能两者皆是。MIDI的通信是半双工的。

MIDI消息的结构

通道消息

声部消息

模式消息

系统消息

通用消息

实时消息

专有消息

通用MIDI

MIDI到WAV的转换

三、音频的量化和传输

音频的编码

数据量化以及数据转化统称为数据编码。

脉冲编码调制（PCM）

每种压缩方案都要经历的3个阶段

变换

将输入数据转换为一个更易于压缩或压缩效果更好的表示

失真

失真主要在量化这一步产生

编码

给每一个输出层设定一个码字

语音压缩中的PCM

标准电话系统中，最高频率为4kHz，。故输入模拟信号的时候，要使用一个带通滤波器将其中的高频成分滤掉。

当我们成功地得到了脉冲信号，仍需要执行数/模转换，然后重新生成模拟信号。但我们得到的信号是阶梯型的信号。这种离散的信号不仅仅包含原视信号的频率成分，还包含无穷多的高频信号。所以在数/模转换器的输出端安装一个低通滤波器，只允许低于原始频率最大值的信号通过，使输出信号变得平滑。

输入模拟语音信号->带通滤波->μ律或A律压缩器->线性PCM->数模转换器->μ律或A律扩展器->低通滤波器->输出模拟语音信号

音频的差分编码

差分值都比原来的信号值小，可以用更小的空间来存储。求取差分的一个优点：差分信号的分布图比原始信号的分布图更加集中。

无损预测编码

预测编码最基本的思想就是传输差分值。我们预测下一个采样值和当前采样值相等，我们不发送具体的采样值，而是发送采样值和预测值的误差。

逐差的主要目的是为了让采样值的分布更加集中在0附近，按照较短码字分配给出现频率较高的值的原则，我们将最短的码字赋给0以节约存储空间。

差分脉冲编码调制（DPCM）

和预测编码类似，只是它含有一个量化步骤。可以均匀量化也可以非均匀量化。

操作流程：首先生成预测值，然后用原始信号值减去预测信号生成误差值，接着将误差值量化，得到量化后的误差值，我们使用熵编码来生成量化后的误差值的对应码字。

注意：预测都是基于量化重构后的信号值的。这样在编码阶段使用的信息在解码阶段同样能够得到。如果我们在预测的时候，错误的用原始信号值而不是预测值，那么量化误差就会被累积起来，使得最后误差不再在0附近分布。

编码/解码的主要作用是生成离散化的，可重构的量化重构后的信号值。我们用平均方差来衡量信号的失真率。

增量调制（DM）（DPCM的简化版本）

DM的主要思想是仅仅使用唯一的量化值，该值可以是正数也可以是负数。这种只使用一位的编码使得原始信号编码后呈阶梯状态。这样的预测方法只有一个时延。

在信号基本上维持常数值而很少变动时，使用DM会有很好的效果。如果信号变化很剧烈，就要提高采样频率，这样DM可以成为一种比较简单但也比较有效的模/数转换器。

自适应DM：如果信号波形非常陡峭，那么阶梯状的逼近就不会有很好的效果。处理陡峭波形的一个简单方法就是自适应地变化步长值k，也就是说，根据信号的当前的特点来设定步长值k。

自适应差分脉冲编码调制（ADPCM）

思想：自动调整编码机制使得它能更好地适应输入值。

DPCM编码器最主要有两个部分：量化器和预测器。

我们可以自适应地调整量化器，包括调整步长以及在非均匀量化中调整判别边界。

使用输入信号的特点（前向自适应量化）

使用量化输出信号的特点（后向自适应量化）

也可以使用前向或后向的方法来调整预测器（自适应预测编码APC）

《多媒体技术教程》第六章 数字音频基础

《多媒体技术教程》第六章 数字音频基础

《多媒体技术教程》第六章数字音频基础

《多媒体技术教程》第六章数字音频基础