编码过程是首先选速率为64 kbit/s的PCM语音信号转化成均匀量化的PCM信号,然后把输入语音信号的每240个样点组成一个帧,也就是30 ms的帧长。每个帧通过高通滤波器后再分为4个子帧。对于每个子帧,计算出10阶线性预测滤波器的系数。为了适于矢量量化,把预测系数转化为线性频谱对(LSP:line spectrum pair)。量化前的系数构成短时感觉加权滤波器,原始语音信号经过该滤波器得到感觉加权语音信号。对于每两个子帧,编码器用感觉加权语音信号求得开环基音周期,基音周期范围从18个样点到142个样点。此后编码器所进行的操作都是基于60个样点进行的。最后,激励信号被量化,然后把这些参数和激励信号量化结果传送到解码器。由于帧长为30 ms,并存在另外的7.5 ms的前向延迟,导致37.5 ms总的编码延迟。
G.723.1协议是为了低速可视会议业务而设计的。由于可视会议业务每秒钟只传输很少数量的帧,而且又有比较大的时延,这就是G.723.1 允许有30 ms帧长的原因。这个帧长比较大,却正好适合可视会议这种情况。而且它的速度比较低,可以把尽可能多的比特用在图像传输上。
2.1.2 G.729协议
G.729协议是一个能在8 kbit/s速率上实现高质量语音编码的建议,也是H.323协议中有关音频编码的标准[2]。在IP电话网关中,G.729协议被用来实现实时语音编码处理。G.729协议采用的是CS-ACELP即共轭结构算术码激励线性预测的算法。CS- ACELP以CELP编码模型为基础,它把语音分成帧,每帧10 ms,也就是80个采样点。对于每一帧语音,编码器从中分析出CELP模型参数,其中包括线性预测系数,自适应码本和随机码本的索引值和增益。然后把这些参数传送到解码端,解码器利用这些参数构成激励源和合成滤波器,从而重现原始语音。
编码过程是首先将速率为64 kbit/s的PCM语音信号转化成均匀量化的PCM信号,通过高通滤波器后,把输入语 音信号的每80个样点组成一个帧,也就是10 ms的帧长。对于每个帧用线性预测法求得LP滤波器系数,为了适于矢量量化,把预测系数转化为LSP。利用合成-分析方法,使原始语音和合成语音之间的误差最小,来获得最佳激励信号。激励信号的量化是通过两个码本来实现的,即自适应码本和随机码本。自适应码本反映的是长时预测结果,也就是基音预测结果。随机码本反映的是经过长时预测和短时预测后的残留信号。
2.2 性能分析与比较
语音编码的主要问题是怎样在编码质量、编码速率、算法复杂度以及抗误码性能、编解码时延等方面求得最佳。这几个因素相互联系,密切相关。下面就这些方面对G.729与G.723.1系统进行分析与比较,并给出了实验的结果[3]。
2.2.1 编码质量
编码质量是衡量语音编码优劣的关键性能之一,对它的评价通常有客观评价与主观评价两种。信噪比是衡量语音编码质量的客观标准。其计算可采用长时信噪比和短时信噪比两种准则。由于在语音信号中小能量占信号能量的比率较小,而恰恰小信号对主观听音效果又有比较大的影响,因此长时信噪比不能反应小能量量化的质量,在语音信号处理中经常采用短时信噪比。设每段有M个语音样点,则第m段的分段信噪比定义为

其中分式的分子分母分别表示M个语音样点的总能量和量化噪声的总能量。如果输入语音共有N段,则平均分段信噪比为

此次试验分别对男声、女声、童声以及混声进行了测试,它们得到的信噪比(尤其是时域信噪比)并不很高,然而经过主观评价即MOS(mean opinion score)分评价,它们的听音质量还相对较高,其结果如表1所示,由此说明了基于参数编码与波形编码的语音编码器的不同。
表1 ITU-T语音编码标准的比较
项目 G.729 G.723.1 G.729 annex A
比特率/(kbit/s) 8 5.3/6.3 8