理论教育 如何处理声波信号:从振幅和频率到特征提取及傅里叶变换

如何处理声波信号:从振幅和频率到特征提取及傅里叶变换

时间:2023-06-15 理论教育 版权反馈
【摘要】:振幅和频率是声波的两个主要特征,振幅可以衡量某一时间点的空气压力,频率是振幅变化的速率。声音的音量与功率的大小有关,与振幅的平方有关。典型地,应该将信号分割成若干块,从块中抽取大量不连续的值,这些不连续的值通常称为特征。信号的每个块称为帧,为了保证落在帧边缘的重要信息不会丢失,应该使帧有重叠。傅里叶变换可用来在后一阶段中提取附加信息。LPC把信号的每个采样表示为前面采样的线性组合。

如何处理声波信号:从振幅和频率到特征提取及傅里叶变换

声波在空气压力下会发生变化。振幅和频率是声波的两个主要特征,振幅可以衡量某一时间点的空气压力,频率是振幅变化的速率。当对着麦克风讲话时,空气压力的变化会导致振动膜发生振荡,振荡的强度与空气压力(振幅)成正比,振动膜振荡的速率与压力变化的速率成正比,因此振动膜离开它的固定位置的偏移量就是振幅的度量。根据空气是压缩的或是膨胀(稀薄)的,振动膜的偏移可以被描述为正或负。偏离的幅度取决于当振动膜在正值与负值之间循环时,在哪一个时间点测量偏差值。这些度量值的获取称为采样。当声波被采样时,绘制成一个x-y平面图,x轴表示时间,y轴表示振幅,每秒钟声波重复的次数为频率。每一次重复是一个周期,所以,频率为10意味着1秒内声波重复10次——每秒10个周期或更一般地表示为10 Hz。

声音的音量与功率的大小有关,与振幅的平方有关。用肉眼观察声波的波形得不到多少信息,只能看出元音与大多数辅音的差别,仅仅简单地看一下波形就确定一个音素是元音还是辅音是不可能的。从麦克风所捕获的数据包含了所需单词的信息,否则不可能将语音记录下来,并将其回放为可理解的语音。语音识别的要求是抽取那些能够帮助辨别单词的信息,这些信息应该很简洁而且易于进行计算。典型地,应该将信号分割成若干块,从块中抽取大量不连续的值,这些不连续的值通常称为特征。信号的每个块称为帧,为了保证落在帧边缘的重要信息不会丢失,应该使帧有重叠。

人们说话的频率在10 kHz以下(每秒10 000个周期)。每秒得到的样本数量应是需要记录的最高语音频率的两倍。

在语音识别中,常用另一种称作线性预测编码(Linear Predictive Coding,LPC)的技术来抽取特征。傅里叶变换可用来在后一阶段中提取附加信息。LPC把信号的每个采样表示为前面采样的线性组合。预测需要对系数进行估计,系数估计可以通过使预测信号和附加真实信号之间的均方误差最小来实现。(www.daowen.com)

频谱代表波不同频率的组成成分,它可以利用傅里叶变换、LPC或其他方法得到。频谱能识别出与不同音素相匹配的主控频率,这种匹配可以产生不同音素的可能性估计。

综上所述,语音处理包括从一段连续声波中采样,将每个采样值量化,产生一个波的压缩数字化表示。采样值位于重叠的帧中,对于每一帧,抽取出一个描述频谱内容的特征向量。然后,音素的可能性可通过每帧的向量来计算。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈