理论教育 流媒体传输中的压缩与关键技术

流媒体传输中的压缩与关键技术

时间:2023-06-22 理论教育 版权反馈
【摘要】:本质上,流媒体技术是一种在数据网络上传递多媒体信息的技术。RTP、RTCP和RTSP是流媒体传输的标准协议和关键技术。

流媒体传输中的压缩与关键技术

3.1.1 流媒体技术

1.流媒体概念

流媒体服务提供商用一个视频服务器将节目打包发出,传送到网上,用户接收后通过解码器对这些数据进行解码后播放。流媒体数据流具有3个特点:连续性、实时性、时序性,即其数据流具有严格的前后时序关系。由于流媒体的这些特点,它已经成为在互联网上实时传输音频、视频的主要方式。本质上,流媒体技术是一种在数据网络上传递多媒体信息的技术。目前数据网络具有无连接、无确定路径、无质量保证的特点,这给多媒体实时数据在数据网络上的传输带来了极大的困难,流媒体技术的主要目标就是:通过一定的技术手段实现在数据网络上有效地传递多媒体信息流

传统的流媒体服务大多是客户/服务器 (C/S)模式,即用户从流媒体服务器点击观看节目,然后流媒体服务器以单播方式把媒体流推送给用户。当流媒体业务发展到一定阶段后,用户总数大幅度增加,这种C/S模式加单播方式来推送媒体流的缺陷便明显地显现出来了 (如流媒体服务器带宽占用大、流媒体服务器处理能力要求高等),带宽、服务器等常常成为系统瓶颈。

2.流媒体的关键技术

流媒体有三个关键技术:数据压缩解压缩技术,流媒体的网络传输技术和媒体文件在流式传输中的版权保护技术。其中数据压缩/解压缩技术又是重中之重,是核心技术,流媒体的本质是媒体,流是媒体传递过程中的一种表现形式,和传统的传输方式相比,流媒体的关键是要降低文件的大小,使之能更容易在网络中传输。

流媒体数据流传送实时播放,只是在开始时有些延迟。显然,流媒体实现的关键技术就是流式传输,流式传输主要指将整个音频和视频及三维媒体等多媒体数据文件经过特定的压缩方式解析成一个个压缩包,由视频服务器向用户计算机顺序或实时传送。在采用流式传输方式的系统中,用户不必像采用下载方式那样等到整个文件全部下载完毕后才能播放和观看,而是只需经过几秒或几十秒的启动延时即可在用户的计算机上利用解压软件对被压缩的音频、视频等多媒体文件解压后进行播放和观看,此时多媒体文件的剩余部分将在后台的服务器内继续下载。与单纯的下载方式相比,这种对多媒体文件一边下载一边播放的流式传输方式不仅使启动延时大幅度地缩短,而且对系统缓存容量的需求也大大降低,极大地减少了用户等待的时间。流媒体工作模型如图3-1所示。

图3-1 流媒体工作模型

流媒体的播放方式包括单播、组播、点播与广播。单播方式是指在每一个客户端与流媒体服务器之间需要建立一个单独的数据通道,从一台服务器送出的每个数据包只能传送给一台客户机。每个用户必须分别对流媒体服务器单独发送查询,而流媒体服务器必须向每个用户发送其所请求的数据包文件拷贝。这种巨大冗余会给服务器带来沉重的负担,增加响应时间,甚至使得播放停止;管理人员也被迫购买高性能的硬件和带宽来保证一定的服务质量。单播方式如图3-2所示。

图3-2 单播方式

组播方式使用了一种具有组播能力的网络,允许服务器一次将数据包复制到多个通道上。单台服务器能够对很多台客户机同时发送连续数据流而无延时。流媒体服务器只需要发送一个信息包,而不是多个,所有发出请求的客户端共享同一信息包,信息可以发送到任意地址的客户机。这种方式减少了网络上传输的信息包的总量,网络利用效率大大提高,成本大为下降。组播方式如图3-3所示。

图3-3 组播方式

点播方式是客户端与服务器之间的主动的连接。在点播连接中,用户通过选择内容项目来初始化客户端连接。用户可以开始、停止、后退、快进或暂停流。点播连接提供了对流的最大控制,但这种方式由于每个客户端各自连接服务器,会迅速耗尽网络带宽。

广播方式指的是用户被动接收流。在广播过程中,客户端接收流,但不能控制流。例如,用户不能暂停、快进或后退该流。广播方式中单独一个数据包的文件将发送给网络上的所有用户。使用单播方式发送时,需要将数据包复制成多个拷贝,以多个点对点的方式分别发送给需要它的那些用户;使用广播方式发送时,数据包的单独一个拷贝会被发送给网络上的所有用户,而不管用户是否需要,上述两种传输方式非常浪费网络带宽。组播方式吸收了上述两种发送方式的长处,克服了上述两种发送方式的弱点,将数据包的单独一个拷贝发送给那些需要的客户。组播不会复制数据包的多个拷贝传输到网络上,也不会将数据包发送给不需要它的那些客户,保证了网络上多媒体应用占用的网络带宽最小。

流媒体系统主要包括三部分:媒体制作服务器、媒体传输服务器和客户端播放器。媒体制作服务器的主要功能包括两项,第一项功能是流媒体节目的制作,将电视节目采集压缩后存储到硬盘上或者将其他压缩或未压缩的媒体格式转换成所需的格式,然后上载到媒体传输服务器上,供用户点播。第二项功能是实时直播功能,媒体制作服务器将电视信号或其他实时的音频信号采集压缩成所需的媒体格式,实时发送到媒体传输服务器上,用户可以进行实时观看。

流媒体传输服务器的主要工作是接受用户的视频播放请求,将视频信号发送给用户。客户端播放器将收到的音频信号解码后呈现给用户。流媒体系统示意图如图3-4所示。

图3-4 流媒体系统示意图

3.流式传输的方法

目前,实现流式传输有两种方法:实时流式传输 (Realtime streaming)和顺序流式传输 (Progressive streaming)。实时流式传输通常用于在线直播和视频会议等方面;而顺序流式传输常用于网上办公等领域。RTP、RTCP和RTSP是流媒体传输的标准协议和关键技术。

实时传输协议 (RTP)定义了流媒体中视频音频的标准数据包格式,以使其能在IP网络中进行发送传输。它广泛应用于通信和多媒体系统,包括视频电话和网络电话等。

RTCP是RTP的姊妹协议。RTCP提供RTP协议所需的控制功能。它提供RTP数据流的带外数据统计和流传输控制信息。它协助RTP对多媒体数据进行打包或传输,但本身不传输任何多媒体数据。它主要提供流媒体会话中周期性的服务质量统计,以反馈给参与用户。

实时流协议 (RTSP)是应用级协议,用于建立和控制服务器与客户端之间的媒体会话。RTSP提供了一个可扩展框架,提供音频与视频的播放、暂停等控制功能,实现了类似录像机的功能。数据源包括现场数据与存储在剪辑中的数据。

4.流媒体内容分发技术演进

传统流媒体内容分发技术的主要缺点是数据来源单一,所有播放端数据全部由流媒体服务器提供,对服务器端设备要求极高。而在现有硬件条件下,即使提供大量资金可能也无法满足急剧增长的应用服务,即可扩展性差。传统流媒体内容技术结构图如图3-5所示。

图3-5 传统流媒体内容分发技术结构图

多服务器技术解决了传统流媒体内容分发技术中,数据来源有限的问题,是应用较广泛的流媒体内容分发技术。通过配置多个服务器,降低了单个服务器的压力,提高了服务器端总的承载量。但是该技术存在不同服务器内容实时同步性能差,单个服务器失效可能造成服务彻底中断等问题。而且随着用户数量的增长,势必增加服务器数量,以分流降低增加的负载,使其成本居高不下。多服务器流媒体内容分发技术结构图如图3-6所示。

图3-6 多服务器流媒体内容分发技术结构图

改进多服务器流媒体技术的重要进步是用户端可以选择从多个服务器获得数据,解决了单个服务器失效而造成的服务中断的问题。但是它仍然没有解决服务器内容实时同步能力不足的问题。并且在用户端增加的情况下,保证质量的唯一方法仍然是增加服务器数量,成本依然庞大。改进多服务器流媒体内容分发技术结构图如图3-7所示。

图3-7 改进多服务器流媒体内容分发技术结构图

3.1.1 流媒体技术

1.流媒体概念

流媒体服务提供商用一个视频服务器将节目打包发出,传送到网上,用户接收后通过解码器对这些数据进行解码后播放。流媒体数据流具有3个特点:连续性、实时性、时序性,即其数据流具有严格的前后时序关系。由于流媒体的这些特点,它已经成为在互联网上实时传输音频、视频的主要方式。本质上,流媒体技术是一种在数据网络上传递多媒体信息的技术。目前数据网络具有无连接、无确定路径、无质量保证的特点,这给多媒体实时数据在数据网络上的传输带来了极大的困难,流媒体技术的主要目标就是:通过一定的技术手段实现在数据网络上有效地传递多媒体信息流。

传统的流媒体服务大多是客户/服务器 (C/S)模式,即用户从流媒体服务器点击观看节目,然后流媒体服务器以单播方式把媒体流推送给用户。当流媒体业务发展到一定阶段后,用户总数大幅度增加,这种C/S模式加单播方式来推送媒体流的缺陷便明显地显现出来了 (如流媒体服务器带宽占用大、流媒体服务器处理能力要求高等),带宽、服务器等常常成为系统瓶颈。

2.流媒体的关键技术

流媒体有三个关键技术:数据压缩/解压缩技术,流媒体的网络传输技术和媒体文件在流式传输中的版权保护技术。其中数据压缩/解压缩技术又是重中之重,是核心技术,流媒体的本质是媒体,流是媒体传递过程中的一种表现形式,和传统的传输方式相比,流媒体的关键是要降低文件的大小,使之能更容易在网络中传输。

流媒体数据流传送实时播放,只是在开始时有些延迟。显然,流媒体实现的关键技术就是流式传输,流式传输主要指将整个音频和视频及三维媒体等多媒体数据文件经过特定的压缩方式解析成一个个压缩包,由视频服务器向用户计算机顺序或实时传送。在采用流式传输方式的系统中,用户不必像采用下载方式那样等到整个文件全部下载完毕后才能播放和观看,而是只需经过几秒或几十秒的启动延时即可在用户的计算机上利用解压软件对被压缩的音频、视频等多媒体文件解压后进行播放和观看,此时多媒体文件的剩余部分将在后台的服务器内继续下载。与单纯的下载方式相比,这种对多媒体文件一边下载一边播放的流式传输方式不仅使启动延时大幅度地缩短,而且对系统缓存容量的需求也大大降低,极大地减少了用户等待的时间。流媒体工作模型如图3-1所示。

图3-1 流媒体工作模型

流媒体的播放方式包括单播、组播、点播与广播。单播方式是指在每一个客户端与流媒体服务器之间需要建立一个单独的数据通道,从一台服务器送出的每个数据包只能传送给一台客户机。每个用户必须分别对流媒体服务器单独发送查询,而流媒体服务器必须向每个用户发送其所请求的数据包文件拷贝。这种巨大冗余会给服务器带来沉重的负担,增加响应时间,甚至使得播放停止;管理人员也被迫购买高性能的硬件和带宽来保证一定的服务质量。单播方式如图3-2所示。

图3-2 单播方式

组播方式使用了一种具有组播能力的网络,允许服务器一次将数据包复制到多个通道上。单台服务器能够对很多台客户机同时发送连续数据流而无延时。流媒体服务器只需要发送一个信息包,而不是多个,所有发出请求的客户端共享同一信息包,信息可以发送到任意地址的客户机。这种方式减少了网络上传输的信息包的总量,网络利用效率大大提高,成本大为下降。组播方式如图3-3所示。

图3-3 组播方式

点播方式是客户端与服务器之间的主动的连接。在点播连接中,用户通过选择内容项目来初始化客户端连接。用户可以开始、停止、后退、快进或暂停流。点播连接提供了对流的最大控制,但这种方式由于每个客户端各自连接服务器,会迅速耗尽网络带宽。

广播方式指的是用户被动接收流。在广播过程中,客户端接收流,但不能控制流。例如,用户不能暂停、快进或后退该流。广播方式中单独一个数据包的文件将发送给网络上的所有用户。使用单播方式发送时,需要将数据包复制成多个拷贝,以多个点对点的方式分别发送给需要它的那些用户;使用广播方式发送时,数据包的单独一个拷贝会被发送给网络上的所有用户,而不管用户是否需要,上述两种传输方式非常浪费网络带宽。组播方式吸收了上述两种发送方式的长处,克服了上述两种发送方式的弱点,将数据包的单独一个拷贝发送给那些需要的客户。组播不会复制数据包的多个拷贝传输到网络上,也不会将数据包发送给不需要它的那些客户,保证了网络上多媒体应用占用的网络带宽最小。

流媒体系统主要包括三部分:媒体制作服务器、媒体传输服务器和客户端播放器。媒体制作服务器的主要功能包括两项,第一项功能是流媒体节目的制作,将电视节目采集压缩后存储到硬盘上或者将其他压缩或未压缩的媒体格式转换成所需的格式,然后上载到媒体传输服务器上,供用户点播。第二项功能是实时直播功能,媒体制作服务器将电视信号或其他实时的音频信号采集压缩成所需的媒体格式,实时发送到媒体传输服务器上,用户可以进行实时观看。

流媒体传输服务器的主要工作是接受用户的视频播放请求,将视频信号发送给用户。客户端播放器将收到的音频信号解码后呈现给用户。流媒体系统示意图如图3-4所示。

图3-4 流媒体系统示意图

3.流式传输的方法

目前,实现流式传输有两种方法:实时流式传输 (Realtime streaming)和顺序流式传输 (Progressive streaming)。实时流式传输通常用于在线直播和视频会议等方面;而顺序流式传输常用于网上办公等领域。RTP、RTCP和RTSP是流媒体传输的标准协议和关键技术。

实时传输协议 (RTP)定义了流媒体中视频音频的标准数据包格式,以使其能在IP网络中进行发送传输。它广泛应用于通信和多媒体系统,包括视频电话和网络电话等。

RTCP是RTP的姊妹协议。RTCP提供RTP协议所需的控制功能。它提供RTP数据流的带外数据统计和流传输控制信息。它协助RTP对多媒体数据进行打包或传输,但本身不传输任何多媒体数据。它主要提供流媒体会话中周期性的服务质量统计,以反馈给参与用户。

实时流协议 (RTSP)是应用级协议,用于建立和控制服务器与客户端之间的媒体会话。RTSP提供了一个可扩展框架,提供音频与视频的播放、暂停等控制功能,实现了类似录像机的功能。数据源包括现场数据与存储在剪辑中的数据。

4.流媒体内容分发技术演进

传统流媒体内容分发技术的主要缺点是数据来源单一,所有播放端数据全部由流媒体服务器提供,对服务器端设备要求极高。而在现有硬件条件下,即使提供大量资金可能也无法满足急剧增长的应用服务,即可扩展性差。传统流媒体内容技术结构图如图3-5所示。

图3-5 传统流媒体内容分发技术结构图

多服务器技术解决了传统流媒体内容分发技术中,数据来源有限的问题,是应用较广泛的流媒体内容分发技术。通过配置多个服务器,降低了单个服务器的压力,提高了服务器端总的承载量。但是该技术存在不同服务器内容实时同步性能差,单个服务器失效可能造成服务彻底中断等问题。而且随着用户数量的增长,势必增加服务器数量,以分流降低增加的负载,使其成本居高不下。多服务器流媒体内容分发技术结构图如图3-6所示。

图3-6 多服务器流媒体内容分发技术结构图

改进多服务器流媒体技术的重要进步是用户端可以选择从多个服务器获得数据,解决了单个服务器失效而造成的服务中断的问题。但是它仍然没有解决服务器内容实时同步能力不足的问题。并且在用户端增加的情况下,保证质量的唯一方法仍然是增加服务器数量,成本依然庞大。改进多服务器流媒体内容分发技术结构图如图3-7所示。

图3-7 改进多服务器流媒体内容分发技术结构图

3.1.2 视频编码技术

原始视频数据会占用大量的带宽,为了提高视频传输的实时性和效率,有必要对视频进行压缩编码。所谓视频编码方式就是指通过特定的压缩技术,将某种视频格式的文件转换成另一种视频格式的文件的方式。网络视频压缩编码的理论基础是信息论。压缩即从时域、空域两方面去除冗余的信息,将可推知的确定信息去除。数字图像的压缩编码实质上是以最小比特数来传送图像,有效地减少图像数据量,降低视频图像实时性对带宽的要求,目的是提高信息处理、传输和存储效率。

数字图像压缩编码技术是多媒体信息处理的重要部分,它主要是解决图像声音信息的存储和传输。按照压缩编码所采用的算法不同,图像压缩编码的方法有三类:

1.消除图像时间冗余度的预测编码方法

预测编码是基于图像相关性进行数据压缩的一种方法。视讯传输中,每一帧图像的内容与其前一帧图像差别不大,即相关性很强。利用这个相关性,首先将一副完整内容的图像传到对方,再用已传送的像素对当前的图像像素进行预测,对预测值与实际值的差值(预测误差)进行编码处理和传输。以后发送的每幅图像,只需把不同的内容传过去,从而可使传输的码率大大下降。这种编码方式,采用较少的量化分层,使量化噪声不易被人眼觉察,这样图像数据得到了压缩,而图像主观质量并不下降。

2.消除空间冗余度的变换编码方法

(1)离散余弦变换 (DCT)编码。图像数据具有空间相关性,通过DCT变换将图像数据从空间域变换到频域,视频图像的相关性明显下降,信号的能量主要集中在少数几个变换系数上,然后采用量化和熵编码可以有效地压缩其数据。

(2)长度编码 (RLC)。DCT编码中,通常变换系数经量化后会出现很多连续的零系数。在这种情况下,只要说明两个非零系数之间有多少个零,而不需要传送大量的零系数,解码时插入零系数即可。

(3)哈夫曼编码。哈夫曼编码是一种非等长编码方法。对DCT系数进行量化以后,在已知各量化值的出现概率不同的情况下,对出现概率高的量化值采用短码字,对出现概率低的量化值采用长码字,可以减少量化值的平均码长,达到压缩目的。

(4)运动补偿。视频图像数据具有时间相关性,相邻的两帧图像间可能具有相同的背景和一些运动的物体。如果能用尽量少的数据描述出这些相同的背景以及运动物体的移动情况,就可以大大减少数据量。运动补偿技术的主要内容包括:将视频图像分割成静止部分和运动部分,检测运动物体的位移,对分割出的运动物体在移动后的差值进行编码,对运动矢量进行编码。

3.混合编码

信源编码的目的是压缩电视图像的时域和空域冗余量,降低视频数字化图像序列的比特率,从而提高传输和存储的效率。一般采用将前两类方法结合起来使用的所谓的混合编码。采用混合编码方式可以用DCT变换进行帧内编码压缩,用运动补偿和运动估计来进行帧间编码压缩,使用熵编码提高压缩的效率等。像H.261、H.263、MPEG-1、MPEG-2等标准都是采用这样的混合编码方式来实现的。

视频流传输中最为重要的编码标准有国际电联的H.261、H.263,运动静止图像专家组的M-JPEG和国际标准化组织运动图像专家组的MPEG系列标准,此外在互联网上被广泛应用的还有Real Networks公司的Real Video、微软公司的WMV以及Apple公司的QuickTime等。下面我们将几种压缩算法简单地介绍一下。

(1)M-JPEG(动态JPEG)。主要特点是基本不考虑视频流中不同帧之间的变化,只单独对某一帧进行压缩。目前基于该技术的视频卡也主要是完成数字视频捕获 (Capture)功能,在后台由CPU或专门的JPEG芯片完成压缩工作,也就是我们常说的软压缩。

M-JPEG压缩技术可以获取清晰度很高的视频图像,而且可以灵活设置每路视频的清晰度、压缩帧数,但缺点是在保证每路都有高清晰度的情况下,受处理速度限制,无法完成实压缩,有很强的丢帧现象,同时由于没有考虑到帧间变化,大量冗余信息被重复存储,因此单帧视频占用的空间较大,目前流行的M-JPEG技术最好的也只能做到3K/帧,通常要8~20K!

(2)小波变换 (WAVELET)。压缩比50~70,分辨率可达到720×576,对静态画面处理较好。和M-JPEG类似,它所占用的带宽和硬盘空间仍然较大,网络传输要求仍然较高。

(3)MPEG。MPEG是Movyig pictures experts group(运动图像专家组)的英文缩写,这个专家组始建于1988年,专门负责为CD建立视频和音频标准,其成员均为视频、音频及系统领域的技术专家。MPEG是ISO/IEC/JTC/SC2/WG11的一个小组。它的工作兼顾了JPEG标准和CCITT专家组的H261标准,于1990年形成了一个标准草案。

MPEG标准由三个组成部分:MPEG视频、MPEG音频和视频与音频的同步。MPEG视频是MPEG标准的核心。为满足高压缩比和随时访问两方面的要求,MPEG采用了预测和插补两种帧间编码技术。MPEG视频压缩算法中包含运动补偿算法等基本技术。运动补偿算法用来减少帧序列的空域冗余,是当前视频图像压缩技术中使用最普遍的技术之一。

MPEG视频的特点是:①可随即存取;②快速正向/逆向搜索;③逆向重播;④视、音同步;⑤容错性。MPEG视频的编码压缩算法采用帧内图像数据压缩和帧间图像数据压缩两种技术,以去除运动图像的空域和时域冗余,从而大大减少了存储空间占用率。MPEG视频图像的类型有三种,即帧内图 (I帧)、预测图 (P帧)和双向预测图 (B帧)。采用P帧和B帧编码后,编码效率很高,既能大大减少存储空间,又能保证图像质量。但在采用B帧编码的过程中也增加了延迟,因为对第N帧的编码需要对第N+k帧的访问,因而在诸如视频会议这样的要求延迟低的应用场合采用MPEG编码技术不大合适。

MPEG标准分为MPEG-1、MPEG-2和MPEG-4三个阶段。

MPEG-1制定于1992年,为工业级标准的设计,可适合于不同带宽的设备,如CD-ROM、Video-CD、CD-I。它可针对SIF标准分辨 (对于NTSC制为325×240;对于PAL制为325×288)的图像进行压缩,传输速率为1.5Mbits/s,每秒播放30帧,具有CD(指激光唱盘)音质,图像质量级别基本与VHS相当。MPEG的编码速率最高可达4~5Mbits/s,但随着速率的提高,其解码后的图像质量有所降低。MPEG-1也被用于数字电话网络中的视频传输,如非对称数字用户线路 (ADSL),视频点播 (VOD)以及教育网络等。同时,MPEG-1也可被用做记录媒体或是在internet上传输音频。

MPEG-2是在MPEG-1的基础上进行的扩展,它也包括系统、视频和音频等部分。MPEG-2系统的作用是将一个或更多个视频、音频或其他的基本数据流合成单个或多个数据流,以便于存储和传输。它支持五项基本功能:①同步多基本流;②将多个基本流交织成单个数据流;③初始化解码缓冲区;④缓冲区管理;⑤时间识别。

MPEG-2系统的编码有节目流和传输流两种,节目流和MPEG-1系统的定义相似,但作了一些扩展,定义了两个表,即节目流映象表和节目流目录表。传输流的定义更为复杂,它支持错误检测与纠正,也支持多服务和多节目,这里所说的服务是指一群逻辑上相关的基本流,回放时要求同步,并且使用同一个时间基准。

MPEG-2视频体系必须与MPEG-1视频体系向下兼容,并且力求满足存储媒体、视频会议/可视电话数字电视、高清晰度电视 (HDTV)、数字广播、通信网络等应用领域中对媒体视频、音频通用编码方法日益增长的新需求,分辨率支持低 (352×288)、中(720×480)、次高 (1140×1080)、高 (1920×1080)等不同档次,编码方法支持从简单到复杂等不同等级。MPEG-2视频体系中引进了框架 (Profile)和级别 (Level)的编码方法,框架是MPEG-2标准中定义的语法的子集,而级别是一个特定框架内的参数所取值的集合,也就是说,一个框架可以包含一个或多个级别。框架和级别限定之后,解码器的设计和解码校验就可在限定的框架中进行,同时以框架和级别的形式定义规范,为不同的应用之间的数据交换提供了方便。

MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也播放MPEG-1格式的数据,如VCD。同时,MPEG-2的出色性能表现,已能适用于HDTV,使得原打算为HDTV设计的MPEG-3,还没出世就被抛弃了。但是它有个致命的缺陷,就是压缩比较低(40∶1),这样就需要很大的硬盘容量来满足长时间的录像存储。MPEG-2压缩PAL制25帧/秒的画面,需要3~10Mbits/s的传输率,占用如此高的带宽导致其只能在局域网内传输。

MPEG-4与MPEG-1、MPEG-2不同。MPEG-4于1998年11月公布,原预计1999年1月投入使用。MPEG-4不仅针对一定比特率下的视频、音频进行编码,而且更加注重多媒体系统的交互性和灵活性。尽管MPEG-4被定义为一个标准,但它实际上是一个压缩/解压缩格式以及面向窄带宽带网络的交互式传输技术的集合。

MPEG-4的特点是:①互操作性,它并非只适应于任何一种特定平台,而是适用于所有平台;②传输独立性,它将传输机制留给服务提供商自己选择,以便能将MPEG-4用在范围很宽的网络环境中;③能压缩和传输低码流到中等码流的富媒体;④交互性,允许内容制作者与观众决定怎样与媒体流进行交互;⑤延展性;⑥有多个不同的框架,以适应不同的应用。

MPEG-4与MPEG-1和MPEG-2的主要区别在于:MPEG-4与应用的级别有关,它是基于对象编码的,即将在网络上传送的内容定义为媒体对象和情景描述的构架;除了视频和音频以外,还允许将不同类型的内容包含在MPEG-4中,比如动画、计算机产生的三维物体等,而MPEG-1和MPEG-2则与音频、视频和码流有关。除了媒体对象的概念外,MPEG-4并没有定义媒体流的传输机制,而是将之留给服务提供商和应用开发者。与MPEG-1和MPEG-2不同的是,MPEG-4定义了传输、同步和内容播放三者之间的关系,以适应爆发性、可延展性内容的传输以及使得交互性成为可能。尽管MPEG-4或多或少地覆盖了MPEG-1和MPEG-2的编码范围,但它所针对的应用是不一样的。MPEG-4定义了所谓的富媒体 (Rich Media)的传输特性、交互性和延展性,因而按照MPEG-4标准压缩的内容可以在宽带和窄带互联网上进行传输,可用于交互式电视,或者可以传输到诸如蜂窝电话、PDA等无线设备上。

MPEG-4标准包括几个核心部分:①MPEG-4系统,用于描述、多路复用、同步、缓冲区管理以及知识产权保护;②多媒体传送综合构架 (Delivery Multimedia Integration Framework,DMIF),它定义了富媒体的传输机制;③MPEG-4视频,它确定了自然的和人工的视频对象的表示;④MPEG-4音频,它确定了自然的和人工的音频对象的表示。

(4)RealVideo。RealVideo是RealNetworks公司开发的在窄带 (主要的互联网)上进行媒体传输的压缩技术。

(5)WMV。WMV是微软公司开发的在互联网上进行媒体传输的视频和音频编码压缩技术,该技术已与WMV服务器和客户机体系结构结合为一个整体,使用MPEG-4标准的一些原理。

(6)QuickTime。QuickTime是一种存储、传输和播放媒体文件的文件格式和传输体系结构,所存储和传输的媒体通过多重压缩模式压缩而成,传输是通过RTP协议实现的。

(7)H.261。H.261又称为P×64,其中P为64kbps的取值范围,是1到30的可变参数,它最初是针对在ISDN上实现电信会议应用特别是面对面的可视电话和视频会议而设计的。实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法属于恒定码流可变质量编码而非恒定质量可变码流编码。

H.261同MPEG1的区别在于H.261是传送屏幕区域的更新信息,大幅度地降低了数据流的瞬时变化,在带宽有障碍的信道上传输是一种理想的方案。总体上其图像质量略逊于MPEG1,适合在ISDN、DDN、PSTN网上传输运动的图像。

(8)H.263。H.263是国际电信联盟远程通信标准化组织 (ITU-T)的一个标准草案,是为低码流通信而设计的。但实际上这个标准适用于很宽的码流范围,而非只用于低码流,它在许多应用中可以取代H.261。H.263的编码算法与H.261一样,但做了一些改善,以提高其性能和纠错能力。H.263的特点有:①H.263的运动补偿使用半像素精度,而H.261则用全像素精度和循环滤波;②数据流层次结构的某些部分在H.263中是可选的,使得编码具有更好的纠错能力;③H.263包含四个可协商的选项以改善性能;④H.263采用无限制的运动向量以及基于语法的算术编码;⑤H.263采用事先预测和与MPEG中的P-B帧一样的帧预测方法;⑥H.263支持5种分辨率,即除了支持H.261中所支持的QCIF和CIF外,还支持SQCIF、4CIF和16CIF,SQCIF相当于QCIF一半的分辨率,而4CIF和16CIF的分辨率分别为CIF的4倍和16倍。

H.263非常适合在固定带宽的信道中传输视频信号。MPEG-1、H.261、H.263三种编码方式都是针对低成本的编码方案。MPEG-1编码方式在400Kbps~2Mbps速率上传输CIF格式、每秒5~30帧的活动图像,在三种编码方式中图像质量最高;H.261编码方式采用了区域更新的方法,进一步降低了码流速率,在128~768Kbps的速率上传输CIF或QCIF格式、每秒5~25帧的活动图像,图像质量略逊于MPEG-1;H.263编码方式是三种方式中数据流速率最低的一种,它在H.261的基础上增加了四种编码选项,将码流速率降到128Kbps以下,在9.6~128Kbps的速率上传输CIF或QCIF格式、每秒1~15帧的活动图像,特别适合在电话线上传输质量要求不高的活动图像。视频显示及图像传输要求对比如表3-1所示。

表3-1 视频显示及图像传输要求对比

3.1.2 视频编码技术

原始视频数据会占用大量的带宽,为了提高视频传输的实时性和效率,有必要对视频进行压缩编码。所谓视频编码方式就是指通过特定的压缩技术,将某种视频格式的文件转换成另一种视频格式的文件的方式。网络视频压缩编码的理论基础是信息论。压缩即从时域、空域两方面去除冗余的信息,将可推知的确定信息去除。数字图像的压缩编码实质上是以最小比特数来传送图像,有效地减少图像数据量,降低视频图像实时性对带宽的要求,目的是提高信息处理、传输和存储效率。

数字图像压缩编码技术是多媒体信息处理的重要部分,它主要是解决图像声音信息的存储和传输。按照压缩编码所采用的算法不同,图像压缩编码的方法有三类:

1.消除图像时间冗余度的预测编码方法

预测编码是基于图像相关性进行数据压缩的一种方法。视讯传输中,每一帧图像的内容与其前一帧图像差别不大,即相关性很强。利用这个相关性,首先将一副完整内容的图像传到对方,再用已传送的像素对当前的图像像素进行预测,对预测值与实际值的差值(预测误差)进行编码处理和传输。以后发送的每幅图像,只需把不同的内容传过去,从而可使传输的码率大大下降。这种编码方式,采用较少的量化分层,使量化噪声不易被人眼觉察,这样图像数据得到了压缩,而图像主观质量并不下降。

2.消除空间冗余度的变换编码方法

(1)离散余弦变换 (DCT)编码。图像数据具有空间相关性,通过DCT变换将图像数据从空间域变换到频域,视频图像的相关性明显下降,信号的能量主要集中在少数几个变换系数上,然后采用量化和熵编码可以有效地压缩其数据。

(2)长度编码 (RLC)。DCT编码中,通常变换系数经量化后会出现很多连续的零系数。在这种情况下,只要说明两个非零系数之间有多少个零,而不需要传送大量的零系数,解码时插入零系数即可。

(3)哈夫曼编码。哈夫曼编码是一种非等长编码方法。对DCT系数进行量化以后,在已知各量化值的出现概率不同的情况下,对出现概率高的量化值采用短码字,对出现概率低的量化值采用长码字,可以减少量化值的平均码长,达到压缩目的。

(4)运动补偿。视频图像数据具有时间相关性,相邻的两帧图像间可能具有相同的背景和一些运动的物体。如果能用尽量少的数据描述出这些相同的背景以及运动物体的移动情况,就可以大大减少数据量。运动补偿技术的主要内容包括:将视频图像分割成静止部分和运动部分,检测运动物体的位移,对分割出的运动物体在移动后的差值进行编码,对运动矢量进行编码。

3.混合编码

信源编码的目的是压缩电视图像的时域和空域冗余量,降低视频数字化图像序列的比特率,从而提高传输和存储的效率。一般采用将前两类方法结合起来使用的所谓的混合编码。采用混合编码方式可以用DCT变换进行帧内编码压缩,用运动补偿和运动估计来进行帧间编码压缩,使用熵编码提高压缩的效率等。像H.261、H.263、MPEG-1、MPEG-2等标准都是采用这样的混合编码方式来实现的。

视频流传输中最为重要的编码标准有国际电联的H.261、H.263,运动静止图像专家组的M-JPEG和国际标准化组织运动图像专家组的MPEG系列标准,此外在互联网上被广泛应用的还有Real Networks公司的Real Video、微软公司的WMV以及Apple公司的QuickTime等。下面我们将几种压缩算法简单地介绍一下。

(1)M-JPEG(动态JPEG)。主要特点是基本不考虑视频流中不同帧之间的变化,只单独对某一帧进行压缩。目前基于该技术的视频卡也主要是完成数字视频捕获 (Capture)功能,在后台由CPU或专门的JPEG芯片完成压缩工作,也就是我们常说的软压缩。

M-JPEG压缩技术可以获取清晰度很高的视频图像,而且可以灵活设置每路视频的清晰度、压缩帧数,但缺点是在保证每路都有高清晰度的情况下,受处理速度限制,无法完成实压缩,有很强的丢帧现象,同时由于没有考虑到帧间变化,大量冗余信息被重复存储,因此单帧视频占用的空间较大,目前流行的M-JPEG技术最好的也只能做到3K/帧,通常要8~20K!

(2)小波变换 (WAVELET)。压缩比50~70,分辨率可达到720×576,对静态画面处理较好。和M-JPEG类似,它所占用的带宽和硬盘空间仍然较大,网络传输要求仍然较高。

(3)MPEG。MPEG是Movyig pictures experts group(运动图像专家组)的英文缩写,这个专家组始建于1988年,专门负责为CD建立视频和音频标准,其成员均为视频、音频及系统领域的技术专家。MPEG是ISO/IEC/JTC/SC2/WG11的一个小组。它的工作兼顾了JPEG标准和CCITT专家组的H261标准,于1990年形成了一个标准草案。

MPEG标准由三个组成部分:MPEG视频、MPEG音频和视频与音频的同步。MPEG视频是MPEG标准的核心。为满足高压缩比和随时访问两方面的要求,MPEG采用了预测和插补两种帧间编码技术。MPEG视频压缩算法中包含运动补偿算法等基本技术。运动补偿算法用来减少帧序列的空域冗余,是当前视频图像压缩技术中使用最普遍的技术之一。

MPEG视频的特点是:①可随即存取;②快速正向/逆向搜索;③逆向重播;④视、音同步;⑤容错性。MPEG视频的编码压缩算法采用帧内图像数据压缩和帧间图像数据压缩两种技术,以去除运动图像的空域和时域冗余,从而大大减少了存储空间占用率。MPEG视频图像的类型有三种,即帧内图 (I帧)、预测图 (P帧)和双向预测图 (B帧)。采用P帧和B帧编码后,编码效率很高,既能大大减少存储空间,又能保证图像质量。但在采用B帧编码的过程中也增加了延迟,因为对第N帧的编码需要对第N+k帧的访问,因而在诸如视频会议这样的要求延迟低的应用场合采用MPEG编码技术不大合适。

MPEG标准分为MPEG-1、MPEG-2和MPEG-4三个阶段。

MPEG-1制定于1992年,为工业级标准的设计,可适合于不同带宽的设备,如CD-ROM、Video-CD、CD-I。它可针对SIF标准分辨 (对于NTSC制为325×240;对于PAL制为325×288)的图像进行压缩,传输速率为1.5Mbits/s,每秒播放30帧,具有CD(指激光唱盘)音质,图像质量级别基本与VHS相当。MPEG的编码速率最高可达4~5Mbits/s,但随着速率的提高,其解码后的图像质量有所降低。MPEG-1也被用于数字电话网络中的视频传输,如非对称数字用户线路 (ADSL),视频点播 (VOD)以及教育网络等。同时,MPEG-1也可被用做记录媒体或是在internet上传输音频。

MPEG-2是在MPEG-1的基础上进行的扩展,它也包括系统、视频和音频等部分。MPEG-2系统的作用是将一个或更多个视频、音频或其他的基本数据流合成单个或多个数据流,以便于存储和传输。它支持五项基本功能:①同步多基本流;②将多个基本流交织成单个数据流;③初始化解码缓冲区;④缓冲区管理;⑤时间识别。

MPEG-2系统的编码有节目流和传输流两种,节目流和MPEG-1系统的定义相似,但作了一些扩展,定义了两个表,即节目流映象表和节目流目录表。传输流的定义更为复杂,它支持错误检测与纠正,也支持多服务和多节目,这里所说的服务是指一群逻辑上相关的基本流,回放时要求同步,并且使用同一个时间基准。

MPEG-2视频体系必须与MPEG-1视频体系向下兼容,并且力求满足存储媒体、视频会议/可视电话、数字电视、高清晰度电视 (HDTV)、数字广播、通信网络等应用领域中对媒体视频、音频通用编码方法日益增长的新需求,分辨率支持低 (352×288)、中(720×480)、次高 (1140×1080)、高 (1920×1080)等不同档次,编码方法支持从简单到复杂等不同等级。MPEG-2视频体系中引进了框架 (Profile)和级别 (Level)的编码方法,框架是MPEG-2标准中定义的语法的子集,而级别是一个特定框架内的参数所取值的集合,也就是说,一个框架可以包含一个或多个级别。框架和级别限定之后,解码器的设计和解码校验就可在限定的框架中进行,同时以框架和级别的形式定义规范,为不同的应用之间的数据交换提供了方便。

MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也播放MPEG-1格式的数据,如VCD。同时,MPEG-2的出色性能表现,已能适用于HDTV,使得原打算为HDTV设计的MPEG-3,还没出世就被抛弃了。但是它有个致命的缺陷,就是压缩比较低(40∶1),这样就需要很大的硬盘容量来满足长时间的录像存储。MPEG-2压缩PAL制25帧/秒的画面,需要3~10Mbits/s的传输率,占用如此高的带宽导致其只能在局域网内传输。

MPEG-4与MPEG-1、MPEG-2不同。MPEG-4于1998年11月公布,原预计1999年1月投入使用。MPEG-4不仅针对一定比特率下的视频、音频进行编码,而且更加注重多媒体系统的交互性和灵活性。尽管MPEG-4被定义为一个标准,但它实际上是一个压缩/解压缩格式以及面向窄带和宽带网络的交互式传输技术的集合。

MPEG-4的特点是:①互操作性,它并非只适应于任何一种特定平台,而是适用于所有平台;②传输独立性,它将传输机制留给服务提供商自己选择,以便能将MPEG-4用在范围很宽的网络环境中;③能压缩和传输低码流到中等码流的富媒体;④交互性,允许内容制作者与观众决定怎样与媒体流进行交互;⑤延展性;⑥有多个不同的框架,以适应不同的应用。

MPEG-4与MPEG-1和MPEG-2的主要区别在于:MPEG-4与应用的级别有关,它是基于对象编码的,即将在网络上传送的内容定义为媒体对象和情景描述的构架;除了视频和音频以外,还允许将不同类型的内容包含在MPEG-4中,比如动画、计算机产生的三维物体等,而MPEG-1和MPEG-2则与音频、视频和码流有关。除了媒体对象的概念外,MPEG-4并没有定义媒体流的传输机制,而是将之留给服务提供商和应用开发者。与MPEG-1和MPEG-2不同的是,MPEG-4定义了传输、同步和内容播放三者之间的关系,以适应爆发性、可延展性内容的传输以及使得交互性成为可能。尽管MPEG-4或多或少地覆盖了MPEG-1和MPEG-2的编码范围,但它所针对的应用是不一样的。MPEG-4定义了所谓的富媒体 (Rich Media)的传输特性、交互性和延展性,因而按照MPEG-4标准压缩的内容可以在宽带和窄带互联网上进行传输,可用于交互式电视,或者可以传输到诸如蜂窝电话、PDA等无线设备上。

MPEG-4标准包括几个核心部分:①MPEG-4系统,用于描述、多路复用、同步、缓冲区管理以及知识产权保护;②多媒体传送综合构架 (Delivery Multimedia Integration Framework,DMIF),它定义了富媒体的传输机制;③MPEG-4视频,它确定了自然的和人工的视频对象的表示;④MPEG-4音频,它确定了自然的和人工的音频对象的表示。

(4)RealVideo。RealVideo是RealNetworks公司开发的在窄带 (主要的互联网)上进行媒体传输的压缩技术。

(5)WMV。WMV是微软公司开发的在互联网上进行媒体传输的视频和音频编码压缩技术,该技术已与WMV服务器和客户机体系结构结合为一个整体,使用MPEG-4标准的一些原理。

(6)QuickTime。QuickTime是一种存储、传输和播放媒体文件的文件格式和传输体系结构,所存储和传输的媒体通过多重压缩模式压缩而成,传输是通过RTP协议实现的。

(7)H.261。H.261又称为P×64,其中P为64kbps的取值范围,是1到30的可变参数,它最初是针对在ISDN上实现电信会议应用特别是面对面的可视电话和视频会议而设计的。实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法属于恒定码流可变质量编码而非恒定质量可变码流编码。

H.261同MPEG1的区别在于H.261是传送屏幕区域的更新信息,大幅度地降低了数据流的瞬时变化,在带宽有障碍的信道上传输是一种理想的方案。总体上其图像质量略逊于MPEG1,适合在ISDN、DDN、PSTN网上传输运动的图像。

(8)H.263。H.263是国际电信联盟远程通信标准化组织 (ITU-T)的一个标准草案,是为低码流通信而设计的。但实际上这个标准适用于很宽的码流范围,而非只用于低码流,它在许多应用中可以取代H.261。H.263的编码算法与H.261一样,但做了一些改善,以提高其性能和纠错能力。H.263的特点有:①H.263的运动补偿使用半像素精度,而H.261则用全像素精度和循环滤波;②数据流层次结构的某些部分在H.263中是可选的,使得编码具有更好的纠错能力;③H.263包含四个可协商的选项以改善性能;④H.263采用无限制的运动向量以及基于语法的算术编码;⑤H.263采用事先预测和与MPEG中的P-B帧一样的帧预测方法;⑥H.263支持5种分辨率,即除了支持H.261中所支持的QCIF和CIF外,还支持SQCIF、4CIF和16CIF,SQCIF相当于QCIF一半的分辨率,而4CIF和16CIF的分辨率分别为CIF的4倍和16倍。

H.263非常适合在固定带宽的信道中传输视频信号。MPEG-1、H.261、H.263三种编码方式都是针对低成本的编码方案。MPEG-1编码方式在400Kbps~2Mbps速率上传输CIF格式、每秒5~30帧的活动图像,在三种编码方式中图像质量最高;H.261编码方式采用了区域更新的方法,进一步降低了码流速率,在128~768Kbps的速率上传输CIF或QCIF格式、每秒5~25帧的活动图像,图像质量略逊于MPEG-1;H.263编码方式是三种方式中数据流速率最低的一种,它在H.261的基础上增加了四种编码选项,将码流速率降到128Kbps以下,在9.6~128Kbps的速率上传输CIF或QCIF格式、每秒1~15帧的活动图像,特别适合在电话线上传输质量要求不高的活动图像。视频显示及图像传输要求对比如表3-1所示。

表3-1 视频显示及图像传输要求对比

3.1.3 传输技术

1.通信网络基础设施(www.daowen.com)

数字视频网络传输的实现是以通信网络为前提的,离开了通信网络基础设施,数字视频网络传输就无从谈起。在当前可供使用的通信网络中,按类型来划分有线路交换网络、分组交换网络、ATM网络和无线网络几大类。线路交换网络又可进一步划分为同步光纤网SONET/SDH、密集波分复用网DWDM、光纤到户FTTH、数字用户线路x DSL和混合光纤同轴线缆HFC等,无线网络包括微波无线网络、数字蜂窝无线网络和通信卫星网络等。

就目前的情况来说,语音、数据、图像和视频等多媒体实时传输大多是通过公网或租用线路实现的,这些都属于线路交换的情形,其特点是能够提供服务质量保证,适合于实时应用和高速通信服务,但对于低密度的通信服务而言过于昂贵。目前人们对以IP分组交换为基础的因特网寄予了越来越高的期望,希望它能够成为多媒体通信技术的载体,但一般来说,目前的因特网还不适合于以MPEG-1/MPEG-2格式编码的高质量实时视频应用,只适合于采用WMV和Real Video格式编码的音频、视频媒体传输应用,且必须以增加时延为代价。

近些年来ATM公共网络服务的出现为视频网络通信增加了一种重要选择,成为人们寄予厚望的宽带网络技术。

大多数用户最容易看到的电信网络部分是把用户连接到电信中心局的接入网和前端设备,特别是,用户可以看到连接到建筑物并最终到达用户设备的最后一公里的引入线缆,在许多情况下,它就是运载基带模拟信号的双绞铜线。但这其实只是网络的一个组成部分,与接入网相对应的就是骨干网,上面提到的网络基础设施就是骨干网的情形。当前,接入网正在追随主干网经由同轴电缆并最终经过光纤演变,从模拟走向数字化,非对称数字用户线ADSL、光纤到户FTTH、光纤到路边HTTC以及无线系统等都是这一走向的选择。

就骨干网络而言,现存的通信技术基本上是利用光纤或双绞线上的脉冲传输技术和准同步数字体系PDH技术。此外,同步数字体系SDH光纤系统和北美的同步光纤网SONET也正被广泛采用。如果采用SONET/SDH技术与ATM技术相结合,那么ATM技术的优点将会得到更好的体现。

2.可用的网络传输技术

尽管组网技术千差万别,但对于应用层所采用的传输协议来说,目前可用的面向多媒体通信能力的网络基本上是IP和ATM两种。

IP网络协议原先不是设计用来做多媒体通信的,它不能满足诸如带宽、延迟和延迟抖动等要求。为了让IP网络技术具有多媒体通信能力,目前的IP协议已做了很大的扩展,增加了诸如实时传输协议RTP以及资源预留协议RSVP这样的新协议,并使IP协议具备多投点 (Multicast)、实时投递、集成服务和保证服务质量等特点。

(1)IP多投点技术的特点

IP多投点技术允许路由器一次将数据包复制到多个通道上,并支持下列功能:

①物理上分散的端点可以动态地加入或离开组,没有控制组员关系的中心节点。

②一个结点可以同时属于几个组。

③一个结点可以使用三种发送方式中的一种,即只发送、只接收或发送和接收。

采用多投点技术,单台服务器可以向几十万台客户机同时发送连续的数据流而无延迟,服务器只需要发送一个数据包,所有发出请求的客户机共享同一数据包,从而减少了网络上的信息包的总量,大大提高了网络的利用率。

(2)实时传输协议RTP

RTP是用在Internet上针对多媒体数据流的一种传输协议,它被设计为在单投点或多投点传输的情况下工作,其目的是提供时间信息和实现流的同步。RTP通常使用UDP来传输数据,但它也可以在TCP和ATM等其他协议下工作。

(3)ATM技术的特点

ATM是一种快速分组交换技术,它采用异步分时复用方法将信息流分成固定长度的信元进行高速交换。ATM技术采用全新的不同于ISO协议的参考模型,由4个协议层组成,即用户层、ATM适配层、ATM层和ATM物理层。用户层支持各种用户服务;ATM适配层负责将各种业务的信息适配成ATM信元流;ATM层负责交换、路由选择和信元复用;ATM物理层负责信息传输。

ATM的最大优点在于它是一种通用的与服务无关的交换和多路复用技术,独立于基础的传输技术和速率,而且能够提供范围广泛的服务质量控制机制。ATM技术已被国际电联确定为传输语音、数据、视频及多媒体信息的新工具。

3.1.3 传输技术

1.通信网络基础设施

数字视频网络传输的实现是以通信网络为前提的,离开了通信网络基础设施,数字视频网络传输就无从谈起。在当前可供使用的通信网络中,按类型来划分有线路交换网络、分组交换网络、ATM网络和无线网络几大类。线路交换网络又可进一步划分为同步光纤网SONET/SDH、密集波分复用网DWDM、光纤到户FTTH、数字用户线路x DSL和混合光纤同轴线缆HFC等,无线网络包括微波无线网络、数字蜂窝无线网络和通信卫星网络等。

就目前的情况来说,语音、数据、图像和视频等多媒体实时传输大多是通过公网或租用线路实现的,这些都属于线路交换的情形,其特点是能够提供服务质量保证,适合于实时应用和高速通信服务,但对于低密度的通信服务而言过于昂贵。目前人们对以IP分组交换为基础的因特网寄予了越来越高的期望,希望它能够成为多媒体通信技术的载体,但一般来说,目前的因特网还不适合于以MPEG-1/MPEG-2格式编码的高质量实时视频应用,只适合于采用WMV和Real Video格式编码的音频、视频媒体传输应用,且必须以增加时延为代价。

近些年来ATM公共网络服务的出现为视频网络通信增加了一种重要选择,成为人们寄予厚望的宽带网络技术。

大多数用户最容易看到的电信网络部分是把用户连接到电信中心局的接入网和前端设备,特别是,用户可以看到连接到建筑物并最终到达用户设备的最后一公里的引入线缆,在许多情况下,它就是运载基带模拟信号的双绞铜线。但这其实只是网络的一个组成部分,与接入网相对应的就是骨干网,上面提到的网络基础设施就是骨干网的情形。当前,接入网正在追随主干网经由同轴电缆并最终经过光纤演变,从模拟走向数字化,非对称数字用户线ADSL、光纤到户FTTH、光纤到路边HTTC以及无线系统等都是这一走向的选择。

就骨干网络而言,现存的通信技术基本上是利用光纤或双绞线上的脉冲传输技术和准同步数字体系PDH技术。此外,同步数字体系SDH光纤系统和北美的同步光纤网SONET也正被广泛采用。如果采用SONET/SDH技术与ATM技术相结合,那么ATM技术的优点将会得到更好的体现。

2.可用的网络传输技术

尽管组网技术千差万别,但对于应用层所采用的传输协议来说,目前可用的面向多媒体通信能力的网络基本上是IP和ATM两种。

IP网络协议原先不是设计用来做多媒体通信的,它不能满足诸如带宽、延迟和延迟抖动等要求。为了让IP网络技术具有多媒体通信能力,目前的IP协议已做了很大的扩展,增加了诸如实时传输协议RTP以及资源预留协议RSVP这样的新协议,并使IP协议具备多投点 (Multicast)、实时投递、集成服务和保证服务质量等特点。

(1)IP多投点技术的特点

IP多投点技术允许路由器一次将数据包复制到多个通道上,并支持下列功能:

①物理上分散的端点可以动态地加入或离开组,没有控制组员关系的中心节点。

②一个结点可以同时属于几个组。

③一个结点可以使用三种发送方式中的一种,即只发送、只接收或发送和接收。

采用多投点技术,单台服务器可以向几十万台客户机同时发送连续的数据流而无延迟,服务器只需要发送一个数据包,所有发出请求的客户机共享同一数据包,从而减少了网络上的信息包的总量,大大提高了网络的利用率。

(2)实时传输协议RTP

RTP是用在Internet上针对多媒体数据流的一种传输协议,它被设计为在单投点或多投点传输的情况下工作,其目的是提供时间信息和实现流的同步。RTP通常使用UDP来传输数据,但它也可以在TCP和ATM等其他协议下工作。

(3)ATM技术的特点

ATM是一种快速分组交换技术,它采用异步分时复用方法将信息流分成固定长度的信元进行高速交换。ATM技术采用全新的不同于ISO协议的参考模型,由4个协议层组成,即用户层、ATM适配层、ATM层和ATM物理层。用户层支持各种用户服务;ATM适配层负责将各种业务的信息适配成ATM信元流;ATM层负责交换、路由选择和信元复用;ATM物理层负责信息传输。

ATM的最大优点在于它是一种通用的与服务无关的交换和多路复用技术,独立于基础的传输技术和速率,而且能够提供范围广泛的服务质量控制机制。ATM技术已被国际电联确定为传输语音、数据、视频及多媒体信息的新工具。

3.1.4 优化技术

1.负载均衡

负载均衡就是系统根据服务器距离用户的远近和服务器资源的占用情况而动态地为用户分配不同的服务器以提供服务,它分为全局负载均衡和本地负载均衡。全局负载均衡如图3-8所示。

全局负载均衡主要在分布式流媒体系统中应用。整个流媒体系统由许多分布在不同地区的流媒体服务器构成。用户首先接入流媒体Web网站,选择所要观看的节目,Web网站接收到用户的请求后,分析用户的来源和所请求的节目,然后找出距离用户最近的流媒体服务器为用户服务,从而减少了用户观看的等待时间,同时由于该服务器距离用户最近,媒体流经过的网格环节少,不仅可以比较少地占用骨干网络资源,而且减少了发生数据丢包的风险,从而能保证提供给用户稳定流畅的媒体流。

由于流媒体服务器对服务器的系统资源要求比较高,服务器必须具备提供大量并发访问服务的能力,它的处理能力和I/O能力也是其提供服务的瓶颈之一。如果客户的增多导致通信量超出了服务器所能承受的范围,那么其结果必然是宕机。

图3-8 全局负载均衡

显然,单台服务器有限的性能不可能具备供几千个用户并发访问的能力,因此要求服务更多的用户就必须将多台服务器组成一个系统,并通过智能交换技术将所有用户请求平均分配给所有服务器,这样这个系统就能同时处理几千甚至上万的并发流。

在图3-9所示的本地负载均衡中,四层交换机屏蔽了所有的流媒体服务器,对用户来说它看到的只是一个IP地址。当用户接入该地址后,四层交换机会分析所有流媒体服务器的忙闲状况,找出一台相对空闲的服务器,将该用户的请求转发给它,从而可以实现多台服务器间的负载均衡。

2.内容缓存

图3-10为内容缓存系统,其中Publisher Hosts是内容发布服务器,Subscriber Hosts是用户服务器。

系统实现内容缓存的过程如下:

(1)数据中心存储所有的节目。

(2)用户服务器的存储空间分为两部分,一部分存储最流行的节目,另外一部分作为高速缓存存储空间。

(3)约90%的用户请求的内容,都可以在用户服务器上存储的最流行的节目中找到。

(4)当用户请求的节目不能在流行节目的存储空间中找到时,服务器就会在高速缓存中寻找,如果能找到,就可以马上发给用户。

图3-9 本地负载均衡

图3-10 内容缓存系统

(5)如果不能在用户服务器上找到时,用户服务器就会向内容发布服务器发送请求,内容发布服务器就会将该节目发送给用户服务器。

(6)用户服务器将内容发送给用户,同时存储到高速缓存中,这样第二个用户请求同一个节目时,就会马上得到回应。

通过该高速缓存技术,用户大约99%的请求都可以从本地服务器中得到回应,从而极大地减少了骨干网的流量和提高了用户的响应。

3.服务器冗余

服务器冗余可以极大地提高系统的可靠性和可用性。服务器冗余包括流媒体服务器冗余和编码器冗余,这样可以保证某一台或某几台服务器宕机时不会影响到系统的运行。

在图3-11所示的流媒体服务器冗余中,当用户初始接入宕机时,用户会被实时切换到备份服务器,并且播放不会被中断,用户观看几乎不受任何影响。

图3-11 流媒体服务器冗余

图3-12 编码器冗余

在图3-12所示的编码器冗余中,当其中一个编码器宕机时,服务器会实时接收备份编码器的码流,从而不会干扰用户播放。

4.CDN加速

CDN加速是通过在现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络 “边缘”,使用户可以就近取得所需的内容,并提高用户访问网站的响应速度。其主要技术是负载均衡、内容分发与复制、内容缓存等。

CDN加速分为静态加速、动态加速、视频流媒体点播加速、视频流媒体直播加速和视频文件下载加速。

静态加速是通过利用智能dns技术及cache节点缓存技术,将用户的访问请求智能定向到距离用户访问路径最短的节点服务器上,从而减少了内容传输的节点路径,有效地避免了由于访问量过大或者带宽资源不足等原因而导致的访问过慢甚至失败的问题。它通过使用大容量缓存技术降低了源站服务器与各级节点的信息传输压力和频率,提高了网络速度。静态页面加速改善了internet的服务质量,提高了网络利用率,从而大幅提升了用户的使用体验。

静态加速的服务范围包括页面类 (HTML、HTM等)、图片类 (JPG、GIF、BMP等)以及Flash动画等内容。网络系统运用动态负载均衡策略,合理地将访问请求平衡分配至各个节点当中,有效地提高了网络整体的资源使用效率,降低了网络负载压力,进一步提高了整体服务网络的稳定性。静态加速如图3-13所示。

—动态加速是针对动态内容加速服务而建立的专有网络。动态加速的核心是高速传输通道和BGP高速机房托管服务。动态加速网络在全国几大区域的核心节点之间采用光纤直连,将各个核心节点串了智能路由判断、内容预存储、动态负载均衡等技术,提供7× 24小时运维监控服务,使运营者不必再牵挂网络的健康状况,专心于自身的运营,降低了带宽、设备、人力的投入。动态加速如图3-14所示。

图3-14 动态加速

视频流媒体点播加速平台在加速服务网络中建立了BGP核心流媒体分发数据中心并在全国范围分布有多个视频流媒体专属服务器,通过将客户源服务器直连到核心分发服务器,利用分发服务器的BGP高速带宽快速将客户源服务器的加速内容主动推送并预存在各个区域核心节点中,由各个节点向访问用户提供流媒体服务,从而降低源服务器的负载压力,节省带宽资源,并有效地避免网路传输过程中的阻塞,为用户提供高速视频流媒体传输服务。

视频流媒体点播加速平台服务基于Windows Media Streaming,结合分布在各个区域的核心节点,并依托网络本身丰富的资源给客户提供一站式的加速服务。视频流媒体点播加速如图3-15所示。

网络在线直播由于其特有的实时性特点对于网络的传输速度、流畅性和承载能力提出了更高的要求,因此更需要一个专门的加速平台来提供服务。视频流媒体直播加速服务平台利用加速网已有的高速传输线路连接分布在各个区域内的核心节点,通过数据分发中心与客户源站之间的高速直连,将直播数据迅速上传并向全国各节点分发,用户访问时,通过智能dns系统将访问请求匹配至最合适的节点,从而实现高质量的直播加速,为终端用户提供一个可靠的服务。视频流媒体直播加速如图3-16所示。

图3-15 视频流媒体点播加速

图3-16 视频流媒体直播加速

视频下载要求的是速度足够快,能够应对突发流量,可以支持大并发流量。这对内容运营商来说有着不小的难题。限于带宽资源、设备以及维护人力的投入,普通模式的网络很难有效地支撑客户需求,这就需要一个稳定、快速的加速网络提供服务。

视频文件下载加速能够将客户视频文件快速、安全地分发至全国各个节点,从而实现极速下载。客户上传视频文件时,系统会智能匹配传输效率最高的节点与客户连接,加速网络会在客户文件上传过程中将视频文件分发至其他核心节点。同时核心数据分发中心能够与客户源服务器进行直连,可以实现与客户源服务器的数据同步,进而将需要加速的视频文件主动推送至各个节点,实现网络加速。核心数据分发中心采用高质量的BGP带宽,不会受到南北互联互通的影响,具备快速、稳定、安全的服务能力。视频文件下载加速如图3-17所示。

图3-17 视频文件下载加速

5.传输协议优化

流媒体传输一般采用TCP协议,并通过优化TCP协议的方式来优化流媒体传输。

目前主流的TCP优化技术包括:

(1)Zeta-TCP,由北京华夏创新科技有限公司 (AppEx Networks)实现并商业化。

(2)astTCP,由Fast Soft实现并商业化。

3.1.4 优化技术

1.负载均衡

负载均衡就是系统根据服务器距离用户的远近和服务器资源的占用情况而动态地为用户分配不同的服务器以提供服务,它分为全局负载均衡和本地负载均衡。全局负载均衡如图3-8所示。

全局负载均衡主要在分布式流媒体系统中应用。整个流媒体系统由许多分布在不同地区的流媒体服务器构成。用户首先接入流媒体Web网站,选择所要观看的节目,Web网站接收到用户的请求后,分析用户的来源和所请求的节目,然后找出距离用户最近的流媒体服务器为用户服务,从而减少了用户观看的等待时间,同时由于该服务器距离用户最近,媒体流经过的网格环节少,不仅可以比较少地占用骨干网络资源,而且减少了发生数据丢包的风险,从而能保证提供给用户稳定流畅的媒体流。

由于流媒体服务器对服务器的系统资源要求比较高,服务器必须具备提供大量并发访问服务的能力,它的处理能力和I/O能力也是其提供服务的瓶颈之一。如果客户的增多导致通信量超出了服务器所能承受的范围,那么其结果必然是宕机。

图3-8 全局负载均衡

显然,单台服务器有限的性能不可能具备供几千个用户并发访问的能力,因此要求服务更多的用户就必须将多台服务器组成一个系统,并通过智能交换技术将所有用户请求平均分配给所有服务器,这样这个系统就能同时处理几千甚至上万的并发流。

在图3-9所示的本地负载均衡中,四层交换机屏蔽了所有的流媒体服务器,对用户来说它看到的只是一个IP地址。当用户接入该地址后,四层交换机会分析所有流媒体服务器的忙闲状况,找出一台相对空闲的服务器,将该用户的请求转发给它,从而可以实现多台服务器间的负载均衡。

2.内容缓存

图3-10为内容缓存系统,其中Publisher Hosts是内容发布服务器,Subscriber Hosts是用户服务器。

系统实现内容缓存的过程如下:

(1)数据中心存储所有的节目。

(2)用户服务器的存储空间分为两部分,一部分存储最流行的节目,另外一部分作为高速缓存存储空间。

(3)约90%的用户请求的内容,都可以在用户服务器上存储的最流行的节目中找到。

(4)当用户请求的节目不能在流行节目的存储空间中找到时,服务器就会在高速缓存中寻找,如果能找到,就可以马上发给用户。

图3-9 本地负载均衡

图3-10 内容缓存系统

(5)如果不能在用户服务器上找到时,用户服务器就会向内容发布服务器发送请求,内容发布服务器就会将该节目发送给用户服务器。

(6)用户服务器将内容发送给用户,同时存储到高速缓存中,这样第二个用户请求同一个节目时,就会马上得到回应。

通过该高速缓存技术,用户大约99%的请求都可以从本地服务器中得到回应,从而极大地减少了骨干网的流量和提高了用户的响应。

3.服务器冗余

服务器冗余可以极大地提高系统的可靠性和可用性。服务器冗余包括流媒体服务器冗余和编码器冗余,这样可以保证某一台或某几台服务器宕机时不会影响到系统的运行。

在图3-11所示的流媒体服务器冗余中,当用户初始接入宕机时,用户会被实时切换到备份服务器,并且播放不会被中断,用户观看几乎不受任何影响。

图3-11 流媒体服务器冗余

图3-12 编码器冗余

在图3-12所示的编码器冗余中,当其中一个编码器宕机时,服务器会实时接收备份编码器的码流,从而不会干扰用户播放。

4.CDN加速

CDN加速是通过在现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络 “边缘”,使用户可以就近取得所需的内容,并提高用户访问网站的响应速度。其主要技术是负载均衡、内容分发与复制、内容缓存等。

CDN加速分为静态加速、动态加速、视频流媒体点播加速、视频流媒体直播加速和视频文件下载加速。

静态加速是通过利用智能dns技术及cache节点缓存技术,将用户的访问请求智能定向到距离用户访问路径最短的节点服务器上,从而减少了内容传输的节点路径,有效地避免了由于访问量过大或者带宽资源不足等原因而导致的访问过慢甚至失败的问题。它通过使用大容量缓存技术降低了源站服务器与各级节点的信息传输压力和频率,提高了网络速度。静态页面加速改善了internet的服务质量,提高了网络利用率,从而大幅提升了用户的使用体验。

静态加速的服务范围包括页面类 (HTML、HTM等)、图片类 (JPG、GIF、BMP等)以及Flash动画等内容。网络系统运用动态负载均衡策略,合理地将访问请求平衡分配至各个节点当中,有效地提高了网络整体的资源使用效率,降低了网络负载压力,进一步提高了整体服务网络的稳定性。静态加速如图3-13所示。

—动态加速是针对动态内容加速服务而建立的专有网络。动态加速的核心是高速传输通道和BGP高速机房托管服务。动态加速网络在全国几大区域的核心节点之间采用光纤直连,将各个核心节点串了智能路由判断、内容预存储、动态负载均衡等技术,提供7× 24小时运维监控服务,使运营者不必再牵挂网络的健康状况,专心于自身的运营,降低了带宽、设备、人力的投入。动态加速如图3-14所示。

图3-14 动态加速

视频流媒体点播加速平台在加速服务网络中建立了BGP核心流媒体分发数据中心并在全国范围分布有多个视频流媒体专属服务器,通过将客户源服务器直连到核心分发服务器,利用分发服务器的BGP高速带宽快速将客户源服务器的加速内容主动推送并预存在各个区域核心节点中,由各个节点向访问用户提供流媒体服务,从而降低源服务器的负载压力,节省带宽资源,并有效地避免网路传输过程中的阻塞,为用户提供高速视频流媒体传输服务。

视频流媒体点播加速平台服务基于Windows Media Streaming,结合分布在各个区域的核心节点,并依托网络本身丰富的资源给客户提供一站式的加速服务。视频流媒体点播加速如图3-15所示。

网络在线直播由于其特有的实时性特点对于网络的传输速度、流畅性和承载能力提出了更高的要求,因此更需要一个专门的加速平台来提供服务。视频流媒体直播加速服务平台利用加速网已有的高速传输线路连接分布在各个区域内的核心节点,通过数据分发中心与客户源站之间的高速直连,将直播数据迅速上传并向全国各节点分发,用户访问时,通过智能dns系统将访问请求匹配至最合适的节点,从而实现高质量的直播加速,为终端用户提供一个可靠的服务。视频流媒体直播加速如图3-16所示。

图3-15 视频流媒体点播加速

图3-16 视频流媒体直播加速

视频下载要求的是速度足够快,能够应对突发流量,可以支持大并发流量。这对内容运营商来说有着不小的难题。限于带宽资源、设备以及维护人力的投入,普通模式的网络很难有效地支撑客户需求,这就需要一个稳定、快速的加速网络提供服务。

视频文件下载加速能够将客户视频文件快速、安全地分发至全国各个节点,从而实现极速下载。客户上传视频文件时,系统会智能匹配传输效率最高的节点与客户连接,加速网络会在客户文件上传过程中将视频文件分发至其他核心节点。同时核心数据分发中心能够与客户源服务器进行直连,可以实现与客户源服务器的数据同步,进而将需要加速的视频文件主动推送至各个节点,实现网络加速。核心数据分发中心采用高质量的BGP带宽,不会受到南北互联互通的影响,具备快速、稳定、安全的服务能力。视频文件下载加速如图3-17所示。

图3-17 视频文件下载加速

5.传输协议优化

流媒体传输一般采用TCP协议,并通过优化TCP协议的方式来优化流媒体传输。

目前主流的TCP优化技术包括:

(1)Zeta-TCP,由北京华夏创新科技有限公司 (AppEx Networks)实现并商业化。

(2)astTCP,由Fast Soft实现并商业化。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈