继成功定义MPEG-1和MPEG-2之后,MPEG的专家们又即将推出新的ISO/IEC标准MPEG 4。MPEG-4旨在为视音频数据的通信、存取与管理提供一个灵活的框架与一套开放的编码工 具。这些工具将支持大量的应用功能(新的和传统的)。尤为引人注目的是,MPEG-4提供 的多种视音频(自然的与合成的)的编码模式使图像或视音频中对象的存取大为便利。这种 视频、音频对象的存取,常被称作基于内容的存取。基于内容的检索是它的一种特殊形式。
实际上,数字化电视(自然的内容)、交互式图形应用(合成的内容,如PC游戏、虚拟 环境、GUI等)及WWW(内容的分布与存取)这三个领域的成功促进了MPEG-4的诞生。MPEG-4将提供多个标准化技术元素,以促进上述三个领域中各种形式的内容制作、分布与存取 的集成。
总的来说,MPEG-4是通用标准,这种通用性集中体现在它所支持的应用、比特率、分辨率、质量和服务上。然而从标准的进展状况来看,MPEG-4把对基于内容的应用(Content Based Application,CBA)的支持放在了非常重要的地位,这种支持是多层面的。
1.MPEG-4图像与视频标准的目标和功能
在MPEG-4图像与视频标准中,视频表示工具的目标是为多媒体环境下的纹理、图像和视频数据的有效存储、传输及管理提供标准化的核心技术,尤其强调这些工具对图像和视频内容的原子单位(称为视频对象VO)的编解码能力,要能对任意形状的视频对象进行有效的表示,以支持所谓基于内容的功能集。一个讲话者(不包括背景)可视为一个VO,这个讲话者又可通过与其它AVO复合构成场景。另外,MPEG-4还支持MPEG-1和MPEG-2中已有的大多 数功能,包括对标准的矩形图像序列的有效压缩(支持多种数据格式、帧率、比特率和多层 次的时间、空间及服务的伸缩度)。传统的矩形图在MPEG-4中被看作是VO的一种特例。
为达到这样一个“宽广的”目标,而不局限于过窄的应用面中,MPEG-4把各种应用中 相似的功能分门别类集中起来,以工具和算法的形式解决这些问题,包括:
·图像和视频的有效压缩;
·纹理的有效压缩(用于二维与三维网格上的纹理映射);
·隐含的二维网格的有效压缩;
·控制网格运动的时变几何参数的有效压缩;
·对各种可视对象的有效随机存取;
·对图像和视频序列的扩展操纵管理功能;
·图像和视频基于内容的编码;
·纹理、图像和视频基于内容的可伸缩性;
·空间、时间和质量可伸缩性;
·在易错(Error Prone)环境下的鲁棒性。
上述大部分功能(除第一条外)很容易使人联想到内容的制作、分布与存取。事实上, MPEG-4设定的很多特有的功能目标是由基于内容的应用抽取、提炼出来的。
2.MPEG-4图像与视频标准的技术结构
图2是MPEG-4图像与视频标准目前所提供的比特率和功能的初步分类。下面对比特率与 功能集之间的关系进行讨论,以便对各技术及其相应功能在标准中所处的位置有更清晰的认识。
底部的VLBV(Very Low Bit rate Video)内核为在超低比特率(5k~64kb/s)环境下运作 的应用提供算法和工具,支持低分辨率(低于CIF格式)和低帧速(低于15Hz)的图像序列。VLBV支持的面向应用的基本功能包括:
·为实时多媒体通信应用提供传统矩形图像序列的VLBV编码方法,这些方法以高压缩比、高容错度、低延迟和低复杂度为显著特征。
·为VLBV多媒体数据库存取应用中的“随机存取”、“快进”、“快退”提供支持。
上述功能在较高比特率时同样受到支持。这时,输入信号的时空分辨率增高(有时达到ITU-R Rec.601的分辨率),但仍采用与VLBV内核相同或类似的技术和工具。高比特率的动 态范围为64kb/s~4Mb/s。这一范围内的典型应用是具有数字电视质量信号的广播及交互式 检索。为支持这些较高比特率的应用,MPEG-4中规定了编码隔行信号工具。
基于内容的功能集支持内容(即场景中的物理对象VO)的单独编码和解码。MPEG-4的 这一特性为交互性提供了有力的底层机制支持,也为在压缩域对图像或视频的VO内容进行灵 活的表示和管理提供了有利条件。这种支持使接收端无需做进一步的图像分割或变换,为实 时应用提供了便利。
另外,对于自然与合成视频数据的混合编码(如虚拟环境的展示),基于内容的编码功 能允许把若干不同来源的VO与合成的对象(如虚拟背景)合在一起。
3.传统编码与基于内容编码的统一
MPEG-4图像与视频标准统一支持传统矩形和任意形状图像与视频的编解码。图3解释了 这一思想。
传统的图像和视频编码采用类似于MPEG-1/2的技术,包括运动预测/补偿及随后的纹理 编码。对于基于内容的应用,输入的图像序列可能具有任意形状和位置。这时,传统的途径 可以通过附加编码形状和透明信息来扩展。形状可以用8位透明分量表示(一个VO由多个其 它对象构成时)或用一个二值掩模描述。另外,通过对场景中每个物体采用适当的和精细的 基于对象的运动预测工具,可以大大提高某些视频序列的压缩比。这是基于内容编码方法的 一个重要优点。
总的来说,对于MPEG-4,扩展的基于内容的编码可视为传统的VLBV内核或HBV工具由矩 形输入向任意形状输入的逻辑延伸。在基于内容的编码中,一些附加的元素被补充到由VLBV 和HBV内核提供的工具中,在这个意义上,基于内容的编码是VLBV和HBV内核的超集。