下一代压缩视频标准性能及其技术特征

【下一代压缩视频标准性能及其技术特征】
;
随着经济的发展和技术的进步,市场对高性能视频业务的需求不断膨胀,原有的压缩视频标准已经不能够满足要求,新的压缩视频技术将拥有广阔的市场空间 。H.264/AVC是目前由ITU-T的视频编码专家组(VCEG)及ISO/IEC的活动图像专家组(MPEG)大力发展研究的、适应于低码率传输的新一代压缩视频标准 。2003年3月由两个专家组组成的联合视频专家组(JVT)公布了这一压缩视频标准的最终草案,此标准被称为ITU-T的H.264协议或ISO/IEC的MPEG-4的高级视频编码部分 。基于协议内容及仿真结果,本文对此协议的主要技术特征、基本算法进行了分析并给出了相关部分的性能对比 。
一 H.264的主要技术特征分析
H.264的编解码框架与以前提出的标准,如H.261、H.263及MPEG-1/2/4并无显著变化,也是基于混合编码的方案:以运动矢量代表图像序列各帧的运动内容,使用前面已解码帧对其进行运动估计和补偿或使用帧内猜测技术,所得的图像参差值要经过变换、量化、熵编码等部分的处理 。所以,新标准的性能提升在于各个部分的技术方案的改进及新算法的应用 。
新标准在提高图像传输的容错性方面做了大量工作,重新定义了适于图像的结构划分 。在编码时,图像帧各部分被划分到多个Slice结构中去,每个Slice都可以被独立解码,不受其它部分的影响 。Slice由图像最基本的结构—宏块组成,每个宏块包含一个16×16的亮度块和两个8×8的色度块 。
为进一步提高鲁棒性,整个系统被划分为视频编码层和网络抽象层 。视频编码层主要描述要传输的视频数据所承载的视频内容 。而网络抽象层则是考虑不同的应用,如视频会议通信、H.32X连续包的视频传输或RTP/UDP/IP的通信 。
H.264标准分成三个框架(Profile):Baseline、Main Profile及X Profile,代表针对不同应用的算法集及技术限定 。Baseline主要包含低复杂度、低延时的技术特征,主要针对交互式的应用,考虑到恶劣环境下的容错性,内容基本都被其它更高级别的Profile所包含;Main Profile是针对更高编码效率的应用,如视频广播;X Profile 的设计主要针对流媒体的应用,在这一框架中所有容错技术、对比特流的灵活访问及切换技术都将包括其中 。
1. Baseline的解码器只对I Slice及P Slice进行操作
对于帧间猜测,相比以前的标准,为了更精确地对图像的运动内容进行猜测补偿,新标准答应宏块更进一步划分为16×16、16×8、8×16、8×8、8×4、4×8、4×4的子块;运动估计精确到经由6-tap滤波器得到的1/4象素位置;运动矢量由相邻块猜测得到,其猜测的差值被编码传输 。H.264支持多参考帧的猜测,规定运动估计使用的参考帧数最多可达15帧,多参考帧的使用大大提高了对图像传输的容错性,抑制了错误在空间和时间上的蔓延 。
对于所有的Slice编码类型,H.264支持两类帧内编码:4×4与16×16编码模式 。对于4×4模式,每一个亮度4×4块有8种不同方向上的猜测模式及DC猜测模式;对于16×16模式,每个16×16亮度块有4种帧内猜测模式 。而对于宏块的8×8色度采样,采用与亮度16×16几乎相同的猜测模式 。为了保证Slice的编码独立性,帧内猜测是不答应跨越Slice边界的 。
对于变换、量化部分,不同于以前标准对猜测参差值的变换编码使用DCT变换,H.264使用了简单的整数变换 。这种变换与DCT相比,压缩性能几乎相同且有许多优势,其核心变换的计算只使用加减、移位运算,避免了精度的损失 。对变换参差系数的量化使用了52级步长的量化器,而H.263标准只有31级 。量化步长以12.5%递增,量化步长范围的扩大使得编码器能够更灵活、精确地进行控制,在比特率和图像质量之间达到折中 。

推荐阅读