导图社区 《在线视频技术精要》读书笔记
这是一篇关于《在线视频技术精要》读书笔记的思维导图。在线视频技术可以算作较为专业的领域,本书重在给出技术的线索、问题背景、认知脉络以及技术之间的联系
编辑于2022-09-30 15:07:03 福建省在线视频
概述
在线视频:通过互联网,让使用者可以有选择地观看视频内容的服务
点播
根据用户请求播放视频内容,用户自主选择观看
直播
节目制作放以实时方式播出,用户有收看权,无选择权
收费模式
依仗收费模式
Netflix模式
兼顾收费服务和贴片广告
Hulu模式
专注广告,对用户收费
Youtube模式
视频内容划分
用户上传为主
Youtube
授权电影电视以及自制剧为主
Netflix
Hulu
爱奇艺
腾讯视频
兼具用户和授权自制
优酷
通过合作,聚合内容,提供搜索
改变生活
互联网普及,用户习惯建立
可以灵活变更服务形式
不同清晰度视频
不同组合用户套餐
替换视频内部广告
无缝衔接体验
依据用户需求,提供各式服务,视频和广告
收集数据信息,定制或者选购内容
各环节服务优化
提升用户观感
形成生态
建立习惯
视频技术
在行业生态/产品形态尚未完善时候,技术是世界变化的主要驱动者
技术与产品驱动
Microsoft
DirectX
DirectShow
第一个广泛应用的音视频框架
Media Foundation
Media Center
Azure
PlayReady:DRM技术
Apple
IMac
ITunes
IPod
IPhone
QuickTime
HLS
HEIF
RelalNetworks
RealPlayer
Real Media Server
Helix Server
Real Producer
Helix Producer
RTSP
RV/RA
RM/RMVB
Adobe
Photoshop
Flash技术
RTMP
Adobe Media Sever
Adobe Flash Encoder
HDS:HTTP Dynamic Streaming
Adobe 产品
Adobe Creative Suite
Adobe Audition
Adobe Premiere
服务构建生活
YouTube
商业模式
鼓励人们上传视频,展示给其他人看
VP9
HTML5
360度影片
Netflix
在线点播服务
早期使用微软编码技术
精细化编码优化体系
机器学习,深度学习和主观测评结合
云计算技术
个性化电影推荐系统
Hulu
免费观看,需要观看广告
会员制收费模式
直播服务
DASH协议大力推广者
Amazon
Prime Video
AWS
Fire TV
Alexa音响
Elemental
GPU
高质量编码
SlingTV
直播服务
BrightCove
视频云服务提供商
SaaS类型服务
Bitmovin
视频服务新秀
动态码率技术
分段转码技术
Conviva
在线视频优化和分析
流媒体服务分析,给予预测和报警
中国引领创新
优酷/土豆
最早建立CDN
搜狐视频
P2P结合的点播和直播
乐视
获取大量优质IP
CDN建设,编解码技术有独到之处
爱奇艺
正版影视领域
绿镜功能
依据大数据帮用户精简视频观看片段
给予Docker分布式转码服务
视频广告投放平台,个性化首页
腾讯视频
NBA付费直播
存储,分发,编码,多终端,搜索,CDN,错误处理
音视频实验室
暴风影音
P2P技术
VR技术
豪杰超级解霸,左眼技术
Bilibili
二次元文化
弹幕
HTML5播放体验
金山云
视频领域H265编码器
最小工具集,重新编码,极限编程
HSC265,获取软件编码器第一名
形形色色玩家
DivX
播放器,网页播放器,转码器,编解码包
DivX3.x
微软MPEG-4V3编码器的Hack版本
DivX4
MainConcept
Harmonic
硬件编码器上顶尖实力
Harmonic,Harvision,Harris,RGB,Teradek,BoxCast
Roku
机顶盒产品
Roku OS
Wowza
基于RTMP流媒体服务器
ClearCaster
Beamr
编码技术优化
专注视频压缩,优化存储空间,带宽使用
常见文件与编码格式
编码技术:是一种针对特定音视频格式内容压缩成另一种音视频格式的方式。
上古时代
WAV
微软开发的一种音频文件格式
RIFF文件规范
内部音频格式为PCM
44.1KHz,16位采样位数,单声道或者立体声
文件大小:采样率 X 采样位数 X 声道 X 时间
未经压缩
MP3
MPEG-1,MPEG-2 Audio Layer 3
较好音质和压缩比率
Fraunhofer-Gesellschaft研发
舍弃听觉不重要部分,压缩文件
不同Bitrate,常见128kbit/s,192kbit/s, 320kbit/s
RM/RMVB/RV/RA
RealMedia
专用多媒体容器格式
一般是CBR固定码率
RMVB
RM换代格式,支持可变码率
主要特点:不需要下载完整文件即可播放,根据不同网络传输速率制定不同压缩比率
RM文件
一系列Chunk组成
Dword chunk Type
Chunk类型
.RMF文件头
PROP文件属性
MDPR流属性
CONT内容描述
DATA和INDX文件索引
其他
MPG
后缀:.mpg或.mpeg或.m2p
PS(Program Stream).ps
来自MPEG-1 Part1(ISO/IEC 11172-1)和MPEG-2 Part1(ISO/IEC 13818-1)
由一个或者多个PES组成
每个流具有一个时间基准,用于此片存储
该格式里面还可以包含多种格式
TS(Transport Steam).ts
来自MPEG-2 Part1(ISO/IEC 13818-1)
一个TS文件包换一组SubStream(PES)
可以为视频,音频,MJPEG,JPEG2000的图片,字幕,EPG等
TS包:每个流分解组装成188字节大小的包中
包括4字节大小包头
同字节和PID
PID值描述TS中一个流
子主题
PID为0X0是,为PAT,描述整个TS包含的信息
PAT中描述PMT流的PID,依此信息找到各个音视频流信息
PAT和PMT统称为PSI(Program Specific Information)信息
PSI信息还包括CAT和NIT两种流
每个包较小,易于传输,可以交错排布
适合网络传播
WMV/WMA/ASF/MMS/AVI
WMV是一系列由微软开发的视频编码格式和文件格式
WMV version 9和VC-1被人熟知
微软以一种名为ASF的文件格式来存储,后缀为.asf或者.wmv
WMA的音频编码格式
以较MP3少1/3~1/2的码率存储相似音质的音频,通常后缀名为“.wma”
MMS的流媒体协议,
MS-WMSP协议
AVI全称Audio Video Interleaved
支持非常广泛的音视频编码格式,包括较新的H.264、HE-AAC等
AVI由RIFF格式衍生
文件结构分为头部、主题和索引三部分
描述信息通常放在INFO chunk里
音视频数据在主体中依照时间信息交互存放
从存在尾部的索引可以任意跳到视频流的中段
因为索引的尾部设计,AVI不太适用于流媒体传输的场景
现代格式
MOV/MP4/3GP
MOV
MOV文件是苹果公司对多媒体行业的一大贡献
QuickTime File Format,
包含一个或多个Track
每个Track存储:视频、音频或字幕中的一种类型的数据
每个Track又由一个层次分明的Object(atom)结构组成
。一个Atom可以包含其他Atom,也可以包含多媒体数据,但不能兼得
MP4
MP4文件几乎完全基于QuickTime文件格式
它由标准ISO/IEC 14496-12规定
添加了extension,形成MPEG-4Part14
MP4文件还常有另外一些文件名后缀,如“.mpa”,“.m4v”等
MP4文件用于下载播放时,moov对象应写在mdat对象前面,以便在访问数据前收到所有的metadata信息
MP4文件用于下载播放时,moov对象应写在mdat对象前面,以便在访问数据前收到所有的metadata信息
3GP
是由3GPP组织定义的文件格式,设计目的是用于3G移动网络中
其定义和MP4非常像,也是基于MPEG-4Part12发展出来的
又有3G2或称作3GPP2的文件格式
其和3GP文件的区别是,一个用于GSM网络,另一个用于CDMA网络。
FLV/F4V
FLV文件的传输多使用RTMP协议
提供免费的Flash Media Encoder(Flash媒体编码器)帮助生成FLV格式的文件。
在Flash Player 9的Update3中,Adobe推出了F4V格式,
主要为支持H.264和AAC编码
文件格式完全基于ISOBase Media File Format(即ISO/IEC 14496-12)的标准
MKV
MKV即是Matroska系列中的一种格式,其后缀名多为“.mkv”
另有适用于单一音频的“.mka”文件和独立的字幕文件“.mks”。
MKV容器和MP4、AVI、ASF等处于同一层次
最大特点就是支持多种不同类型编码的视频、音频、字幕,甚至包括章节、标签信息,还可以加上附件
MKV支持EDC错误检测代码,意味着没有下载完成的MKV也可以播放
容器本身占用的空间比其他格式还要略小
AC3
Dolby Digital格式
是Dolby(杜比)公司开发的一系列有损或无损音频格式中的一种,
其规格标准的名称为ATSC A/52,俗称5.1
音频内容包含5个不同的基础声道[即右前(RF)、中(C)、左前(LF)、右后(RR)、左后(LR)]以及一个低频声道
Dolby DigitalEX(杜比数字扩展)、Dolby Digital Live(杜比数字直播)
Dolby Digital Plus
支持多达14声道,别名为EAC3
AC3或EAC3常常用作原始文件的格式,也可通过TS流形式传输
常见的码率有384kbit/s,448kbit/s等
全景声技术(Dolby Atmos)
H263/MPEG4
MPEG标准组织曾定义MPEG1、MPEG2、MPEG3和MPEG4格式,希望适应不同带宽和视频质量的要求
微软在1998年开发了第一个MPEG-4编码器,包括MS MPEG4v1、MS MPEG4v2和MS MPEG4v3系列
其中V3的画质有显著进步,曾经颇为流行的DivX即是盗版MS MPEG4v3并加入了一些特性得到的编码器。
H.263是ITU-T为视频会议设计的低码率视频编码标准,之后还有增加了新功能的H.263v2和H.263v3
H264
标准MPEG4Part10,Advanced Video Coding中规定的编码格式,缩写为MPEG-4AVC,又称作H.264
编码格式基于较新的运动补偿的方式设计,第一个版本于2003年完成
MPEG4AVC的名称来自于MPEG组织,而H.264的命名则延续了ITU-T社区的约定。
专利许可政策标准(价格)较低并具备很强的操作性
H.264的许可政策对较小规模的使用完全免费
收费仅针对较大的设备出货量且存在封顶
H265
High Efficiency Video Coding简称HEVC,又称作H.265。
与H.264相似,两个不同名称分别来自于ISO/IECMPEG工作组和ITU-T,目标是替代H.264成为新一代视频编码标准
HEVC在编码效率上较H.264有接近50%的提升,可以支持最高8K分辨率
与H.264类似,HEVC也采用Hybrid(混合)编码架构
此外,该标准也拓展到360度视频、3D视频等。
没有普及,究其原因是专利费的问题未能很好地解决
当前一共有几个主要的专利组织和公司声称握有部分的专利
包括MPEG-LA、HEVC-Advance专利池等,
Velos Media和Technicolor公司等也都有独立发起的专利池或专利收取意向,
且在费用需求上非常巨大
,由于HEVC推广步履维艰,与之竞争的编码标准格式近年吸引了大量关注
AAC
研究所和AT&T、杜比公司、索尼和诺基亚一起,设计了AAC格式
ISO/IEC13818-7,
加入SBR和PS技术后,又被作为MPEG4标准的一部分,称为MPEG-4AAC,以ISO/IEC 14496-3为人所知
独树一帜
WEBM/VP9/OGG/Vorbis
webm
WEBM项目受Google资助
采用Matroska格式为基础进行封装
内部采用On2Technologies开发的VP8和后续版本VP9视频编码器
以及Vorbis、Opus音频编码器
On2公司曾开发颇为流行的VP系列编码器,尤以VP6知名
,VP8被以BSD License授权开源并允许所有人免费使用
Google从MPEG-LA取得了VP8可能受影响的专利,再次授权给VP8的使用者
VP9
。VP9作为VP8的后续版本,被Google期望与HEVC竞争
OGG
Voibis
,Vorbis是一种有损音频编码格式
由Xiph.Org基金会领导开发
通常以Ogg作为容器格式,所以也常被称作OGG音频,
Vorbis可以被封装于Matroska格式中,也可用于作为Matroska子集的WebM
APE
无损音频编码格式APE,又称作Monkey’s Audio,
这种编码格式可以保证解码出来的音频和原文件听起来完全一样
这是一种免费的编码格式,与之相似的还有FLAC等格式,在需要提供高品质音频下载服务时常被用到
标准组织
ISO/IEC MPEG
ITU-T VCEG
IETF和RFC
DASH-IF