导图社区数字媒体技术导论（一般指多媒体）10

数字媒体技术导论（一般指多媒体）10

《数字媒体技术导论》刘清堂等第2版.清华大学出版社.第十章数字媒体压缩技术，数字媒体压缩技术是指通过特定的算法减少数字媒体数据量的过程，同时尽可能保持数据的原有质量和完整性。减少存储空间、降低传输带宽需求、提高处理效率等。

编辑于2024-07-07 12:30:06

数字媒体技术导论
媒体压缩

岁岁

他的近期作品查看更多>>

数字媒体技术导论（一般指多媒体）10

社区模板帮助中心，点此进入>>

岁岁

他的近期作品查看更多>>

相似推荐
大纲

英语词性
- 63.5k
- 6.5k
- 2.4k
- 578
- 0
Ethan
法理
- 29.0k
- 67
- 376
- 49
- 1
Dasein
刑法总则
- 39.1k
- 148
- 966
- 156
- 0
Dasein
【华政插班生】文学常识-先秦
- 5.3k
- 4
- 70
- 2
- 0
Dasein
【华政插班生】文学常识-秦汉
- 3.2k
- 0
- 54
- 10
- 0
Dasein
文学常识：魏晋南北朝
- 4.2k
- 3
- 90
- 20
- 0
Dasein
【华政插班生】文学常识-隋唐五代
- 4.7k
- 8
- 98
- 6
- 0
Dasein
【华政插班生】文学常识-两宋
- 3.0k
- 5
- 70
- 8
- 0
Dasein
民法分论
- 9.4k
- 37
- 291
- 28
- 0
Dasein
日语高考動詞の活用
- 3.9k
- 8
- 63
- 8
- 0
鱼子酱

数字媒体技术导论（一般指多媒体）

第十章数字媒体压缩技术

概述

媒体数据压缩的原因与必要性

原因：数据量大，若不压缩，计算机系统就难以压缩、交换、传输

必要性

图像信号：未压缩的视频、图像所需的存储空间之大（彩色图像的大小是黑白的3倍）

数字音频：采样频率44.1kHz,采样精度为16位/样本；数据量大，单纯扩大存储容量增加通信线路的传输速率是不现实的,因此必须进行数据压缩。

压缩的可能性与信息冗余

可能性

数据存在大量信息冗余（重复数据、可忽略数据）

不敏感因素、颜色、亮度、细节

冗余

空间冗余：规则物体之间的相关性

结构冗余

时间冗余：视频与动画画面的相关性

视觉冗余：视觉敏感性（非均匀、非线性）

知识冗余（凭借经验识别）

信息熵（shang）/编码冗余

数据压缩分类

信息是否损失

无损压缩

有损压缩

按原理和方法

统计编码

预测编码

变换编码

分析-合成编码

按媒体类型

图像压缩标准

声音压缩标准

运动图像压缩标准

通用的数据压缩技术

编码的理论基础

信息量是用不确定性的量度定义的信息量=数据量一冗余量

信息熵是将信源所有可能事件的信息量的平均用熵值来衡量是否为最佳编码

平均码长与信息嫡之间的关系如下： Lc>=H(X):有冗余,不是最佳。 Lc<H(X):不可能。 Lc=H(X):最佳编码(L。稍大于H(X))。嫡值为平均码长Lc的下限。

理论基础是信息论（理论极限是信息熵）

无损编码方式

霍夫曼编码

熵编码的基本原理是：用短码表示出概率大的数据，长码表示概率小的，可使平均码长最小

特点

编码值不唯一

对不同信号源的编码效率不同

译码时间长

注意：错误传播，没有保护功能

行程编码

原理：在给定的图像数据中寻找连续重复的数值,然后用两个字符取代这些连续值。

优点：适用于计算机生成的图像，压缩比高，直观经济

缺点：对颜色丰富的自然图像力不从心，需要与其他压缩编码技术联合使用

应用：适用于计算机生成的图像=>利于减少图像文件的存储空间，但由于颜色丰富的图像在同一行上具有相同颜色的连续像素往往很少，所以若用RLE编码，数据会更大

词典编码

指针法：查找目前正在压缩的字符序列在以前输入的数据中是否出现过,，然后用出现过的字符串代替重复的部分

从输人的数据中创建一个“短语词典“，可以是任意字符组合

LZ77算法：滑动窗口压缩

核心是查找从前向缓冲存储器开始的最长的匹配串

步骤

(1)把编码位置设置到输入数据流的开始位置。 (2)找窗口中最长的匹配串。 (3)以“(Pointer,Length)Characters”的格式输出,其中 Pointer 是指向窗口中匹配串的指针,Length表示匹配字符的长度,Characters是前向缓冲存储器中的不匹配的第一个字符。 (4)如果前向缓冲存储器不是空的,则把编码位置和窗口向前移(Length+1)个字符然后返回到步骤(2)。

在有限的窗口查找匹配，会带来两个损失:一是算法的处理时间会增加，二是指针字段必须更长,以允许更长的跳转

LZW算法：串表压缩，围绕称为词典的转换表来完成

利用数据本身包含许多重复的字符串的特性

有损编码方式

脉冲编码调制（PCM）

是将模拟调制信号的采样值变换为脉冲码组,是一种对模拟信号数字化的取样技术,特别是对于音颜信号

过程

采样

量化

编码

问题：均匀量化时小信号量化误差大、音质差

解决方法：不均匀选取量化间隔的非线性量化，即量化特性在小信号时分层密、量化间隔小,在大信号时分层疏、量化间隔大

优点：抗干扰性强、计算机编程利用方便、成本减少、实现智能化设计

增量调制（DM）/△调制

DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“”"这两种可能的取值之一。

“斜率过载”：在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化,量化阶的大小是固定的

增量调制器的粒状噪声：输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变的“0”和“1”

量化阶加大,粒状噪声就会加大

差分脉冲调制（DPCM）用于图像压缩，大范围变化的输入信号

是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术

工作原理是：根据过去的样本去估算下一个样本信号的幅度大小,称为预测值,然后对实际信号值与预测值之差进行量化编码,从而减少表示每个样本信号的位数

与(PCM)不同：PCM是直接对采样信号进行量化编码； DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值

通用的包括行程编码、字典编码和熵编码等无损压缩技术 PCM、DM、DPCM 等有损压缩技术特点：压缩比低、通用性强

数字媒体压缩标准

声音压缩标准：MP3 （MP4是MPEG-2 AAC(ISOIEC13818-7)技术，特点;音质更完美，压缩比更大，增加了对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪。采用A2B音乐压缩技术（提供了电子认证系统，包含复制权利、歌曲可以播放的时间、次数及售卖许可等信息），压缩比20：1

子带滤波器组：先经过多项滤波器组，加入混合多相MDCT的处理改善信号的失真

FFT快速傅里叶转换:PCM 信号的另一路经过 FFT，后进入心里声学模型中

MDCT：把 32 个子带信号进一步细分成18个频线，输出信号同时进入心理声学模型和量化器

心理声学模型:作用是用于后面的编码。人类听觉系统中不敏感的去掉，敏感的保留。掩蔽效应是指只对比较突出的容易引起注意的声音编码。后输入给量化器

量化:MDCT输出的信号,经过失真控制环和非均量化率控制环，即量化器的处理

编码-节约20%空间

比特流组装：边信息存储到每一帧帧头

算法流程：时题映射(包括子带滤波器组和 MDCT)、心理声学模型、量化编码(包括比特和比例因子分配和霍夫曼编码)

图像压缩标准：JPEG 即联合图像专家组

从事静态数字图像压缩编码标准

ISO/IEC10918-1号标准“多灰度连续色调静态图像压缩编码"俗称为JPEG

算法

是无损压缩算法,它是基于空间的线性预测技术,即差分脉冲调制(DPCM)

是有损压缩算法,它是基于离散余弦变换(DCT)，包含三种编码模式：顺序式DCT方式、渐进式DCT方式和分层DCT方式

编码系统：基本系统、扩展系统和无失真压缩系统。压缩比15~20

运动图像压缩标准

MPEG标准

MPEG-1标准

用于传输1.5Mbps数据传输率的数字存储媒体运动图像及其伴音的编码

分为系统、电视像、音频、一致性测试和软件模拟

参考JPEG和H.261

帧内编码技术采用了二维余弦变换、自适应量化、行程编码,变字长编码和DPCM技术帧间编码采用运动补偿预测和运动补偿内插技术

针对标准分率(NTSC制式为352x240、PAL制式为352X288)的图像

数据流包含：图像流、伴音流、系统流

MPEG-2标准

包括系统、电视图音频、一致性测过、软件模拟、数字存储媒体命令和控制扩展协议、先进声音编码、编码器实时接口扩展标准、DSM-CC一致性扩展测试

针对HDTV和DVD等制定的运动图像及其伴音编码标准

适用于包括大屏幕和HDTV在内的高质量电视和广播

特点

(1)MPEG-2解码器兼容MPEG-1和MPEG-2标准。 (2)其视频数据速率为3~15Mbps,基本分辨率为720像素X576像素,每秒可播放30帧画面。 (3)可以30:1或更低的压缩比提供具有广播级质量的视频图像。 (4)允许在画面质量、存储容量和带宽之间选择,在一定范围内改变压缩比。

MPEG-4标准对音视频

包括了系统、电视图像,音频、一致性测试和参考软件、传输多媒体集成框架

为多媒体数据压缩编码提供的是一种格式、一种框架,而不是具体算法,以建立一种更自由的通信与开发环境

目标是支持多种多媒体的应用,特别是多媒体信息基于内容的检索和访问，可以根据不同的应用需求现场配置解码器

MPEG-7标准

称为多媒体内容描述接,包括系统、描述定义语言、电视图像、音频、多媒体述框架、参考软件以及一致性测试

不是针对特定的某项应用，注重的是提供视听信息内容的描述方案,并不包括针对不同应用的特征提取方法和搜索引警,这使得MPEG7标准一方面可以被广泛地应用，另一方面又可以引人竞金机制

应用于存储、流式应用

MPEG-21标准

是可以互作和高度自动化的多媒体架

分布和处理基本单元(DI)和DI与用户国的互操作

也可表述为:以一种高效,透明和可以互操作的方式支持用户交换、接入、使用甚至操作DI的技术

实体是框架中分布和处理的基本单元

描述子一系列抽象术语和概念,以形成一个实用的模型。模型的目的是尽可能地灵活和通围,同时提供尽可能多的功能

一个用户是指与MPEG21进行环境交互或者使用DI的任何实体。这些用户包括个人、消费者、社团、组织、公司和政府部门。MPEG-2L可以被看成是提供用户间交互的一个框架

H.26x系列视频标准

有H.261、H.263、H.264（加入了去块效应滤波器）等

应用于实时视频通信领域,如会议电视、可视电话等

H.261又称为Px64,传输码率为PX64kbps,其中P可变

编码方法包括DCT变换,可控步长线性量化,变长编码及预测编码

H.263是ITU-T为低于64kbps的窄带通信信道制定的视频编码标准

H.263与H.261相比采用了半像素的运动补偿,并增加了4种有效的压缩编码模式

H.264包括4X4整数变换、空域内的帧内预测、1/4像素精度的运动估计、多参考帧与多种大小块的帧间预测技不等

AVS 标准（信息技术先进音视频编码）

核心是把数字视频和音频数据压缩为原来的儿十分之一甚至百分之一以下

包括系统、视频、音频、数字版权保护、一致性测试等支撑标准

核心技术包括8x8整数变换,量化、帧内预测、1/4精度像素插值、特殊的帧间预测运动补、二维编码、去块效应环内滤波等

AVS使用了MPEG-2中的：帧间编码、(基于运动补偿的预测编码、帧内编码(离散余弦变换(DCT))量化(标量量化)、编码(可变长编码(VLC))、视频流格式(图像序列)、编码控制(码率控制)

AVS使用MPEG2中不存在的：帧间编码(可变块大小的运动补偿预测技术)、帧内编码(多方向的空间预测技术),环内滤波器(去除块效应)。不同于MPEG-2的：8x8的整数正交变换及相应的量化策略、改进的运动矢量预测编码、更加高效的熵编码器、基于失真率的编码优化技术

基准档次，与MPEG4AVC/H.264相比,AVS视频增加了B帧、Interlace等

负责开发电视图像数据和声音数据的编码解码和它们的同步标准

数字媒体压缩技术的应用与发展

应用

实时应用：电视节目的现场直播和基于因特网的流视频的实时传输播放（视频会议支持分散式视频会议和集中式视频会议）

非实时应用：是各种本地存储视频的播放及视频点播（分为全交互视频点摄和准视频点播）

影视、教育、会展、视频会议、可视电话远程医疗等

发展

基于内容的图像压缩编码

基于元数据的数字媒体压缩编码：元数据是指详细地描述音视频信息基本元素。提高流的附属功能(码流内容的可访问性、抗误码能力、可伸缩性)

基于兴趣感知的视频编码：利用人眼的感知性质,去除感知冗余

10、数字媒体压缩技术数据压缩的重要性和分类，量化基本原理，常用的压缩编码方式，数字媒体数据压缩编码的国际标准。

数字媒体技术导论 （一般指多媒体）10

数字媒体技术导论 （一般指多媒体）10

数字媒体技术导论（一般指多媒体）10

数字媒体技术导论（一般指多媒体）10