理论教育 LPC谱估计:线性预测分析的应用探究

LPC谱估计:线性预测分析的应用探究

时间:2023-06-17 理论教育 版权反馈
【摘要】:下面介绍线性预测分析在语音信号处理中的应用—LPC 谱估计。前面讨论的线性预测法主要限于差分方程和相关函数,所用的是时域表示式。因此,线性预测分析可以看作一种短时谱估计法。前面的讨论提示我们,线性预测分析的阶数p 能够有效地控制所得谱的平滑度。p 的选择应该从谱估计精度、计算量、存储量等多方面综合考虑,而与线性预测分析的求解方法无关。

LPC谱估计:线性预测分析的应用探究

下面介绍线性预测分析在语音信号处理中的应用—LPC 谱估计。对于其他重要的应用,如LPC 复倒谱、LPC 声码器、LPC 参数在语音识别中的应用等,请参考相关文献

前面讨论的线性预测法主要限于差分方程和相关函数,所用的是时域表示式。然而,线性预测器的系数可认为是一个系统函数分母多项式的系数,这个系统是声道响应、声门脉冲形状以及辐射的组合效应的模式。因此,当给定了一组预测器的系数后,将z=e 代入H(z),就得到语音产生模型的频率响应,即

如果画出其频率响应特性,可以预料,在共振峰频率上会出现峰值。这和前面讨论的谱表示法相同。因此,线性预测分析可以看作一种短时谱估计法。

可以证明,如果信号s(n)是一个p 阶AR 模型,则

其中,H(e)是模型H(z)的频率响应,简称为LPC 谱;S(e)是语音信号s(n)的傅里叶变换,即信号谱,|S(e)|2功率谱。但是事实上,语音信号并非是AR 模型。因此,|H(e)|2 只能理解成|S(e)|2 的一个估计。但另一方面,一个零点能够用无穷多个极点逼近,即

这就是说,零极点模型可以用无穷高阶的全极点模型来逼近。因此,尽管语音信号应看成ARMA 模型,但只要全极点模型H(z)的阶数p 足够大,总能使全极点模型谱以任意小的误差逼近语音信号谱,即有

表明,当p →∞时,|H(e)|2=|S(e)|2,但是不一定存在H(e)=S(e)。这是因为H(z)的全部极点在单位圆内,而S(e)却不一定满足这个条件。

前面的讨论提示我们,线性预测分析的阶数p 能够有效地控制所得谱的平滑度。这可由图9-4 来说明。该图给出了一段语音信号的LPC 谱随预测阶数p 增加而变化的实例。显然,当p 增加时,有更多的谱细节被保存下来。因为我们的目的是要得到声门脉冲、声道以及辐射组合效应谱,因而p 的选择应使共振峰谐振点以及一般的谱形状得以保持。通常,p 在10 以上时短时谱的显著峰值部分基本上能反映出来。

为了表明用LPC 谱进行语音信号谱估计的能力,在图9-4 中,对20ln|H(e)|和20ln|S(e)|进行了比较。信号谱S(e)由FFT 分析得到,被分析的信号是一个经过汉明窗加权的语音段,它来自元音[æ]。H(e)是用自相关法求得的14个极点的LPC 谱。从图中可以清楚地看出信号的谐波结构,同时也可以发现LPC谱估计的一个特点:在信号能量较大的区域即接近谱的峰值处,LPC 谱和信号谱匹配得很好;而在信号能量较低的区域即接近谱的谷底处,匹配得较差;并可进一步推断,对于呈现谐波结构的浊音语音谱,在谐波成分处,LPC 谱匹配信号的效果要远比谐波之间好得多。(www.daowen.com)

图9-4 LPC 谱和信号功率谱的比较

LPC 谱估计的这一特点实际上来自均方误差最小准则。由于自相关与功率谱之间存在着相互依赖的关系,因而线性预测的表示也在频域进行。根据帕塞瓦尔(Parseval)定理,均方预测误差E=E[e2(n)]可以表示为

其中,E(e)是e(n)的傅里叶变换。根据线性预测分析原理,有

所以

表明,按最小均方误差准则求解时,|S(e)|2>|H(e)|2 的区域在总误差中所起的作用比|S(e)|2<|H(e)|2 的区域大。这将使|H(e)|逼近于|S(e)|的峰值而不是逼近于|S(e)|的谷值。事实上,在共振峰附近,|H(e)|最接近于|S(e)|。所以,LPC 谱逼近信号谱的效果在|S(e)|2>|H(e)|2 处要好。

下面简单讨论预测器阶数p 和分析帧长度N 的选择问题。p 的选择应该从谱估计精度、计算量、存储量等多方面综合考虑,而与线性预测分析的求解方法无关。如果p 选得很大,可以使|H(e)|精确地匹配于|S(e)|,但增加的计算量和存储量的代价太大。因此,选择p 的一般原则是:首先保证有足够的极点来模拟声道响应的谐振结构。对发声过程的机理分析可知,正常声道(声道长度17cm)语音频率平均1kHz 带宽上有一个共振峰,一个共振峰需要一对复共轭极点。从而1kHz 需要用两个极点来表征声道响应。这就是说,在取样频率为10kHz 时,为了反映声道响应需要10 个极点。此外,需要3 ~4 个极点逼近频谱中可能出现的零点以及声门激励和辐射的组合效应。因此,在10kHz 取样率时,要求p 值为12 ~14。

在LPC 分析中,分析帧长度N 也是一个重要因素。N 尽可能小是有好处的,因为几乎所有的求解算法中,计算量都和N 成正比。对于自相关法,由于加窗引入了谱的畸变,为了得到精确的谱估计,窗函数长度不得低于两个基音周期。对于协方差法和格型法,因不需要加窗,理论上讲帧长小到什么程度没有限制,但是估计谱的精度随着N 的增加而提高。通常,N 可取2 ~3 个基音周期长度。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈