音讯识别智能算法理论与轨道交通智能技术导论

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：对于声音信号特征分析已经形成多种基础理论。短时过零率表示在一帧声音信号中，时域波形通过零电平的次数。3）短时平均幅度短时帧能量的理论原理是通过计算所有采样值的平方，直接增加了原本存在幅值差异的两相邻采样值之间的幅度差值。此时需要采用一组滤波器式中，L2为一个有限的能量空间。经过小波变换处理后，声音信号被分为不同的子带，每个子带内的小波系数表示对应子带的能量分布。对于正常行车噪声和正常

所谓“音讯识别”，即对采集到的对象声音信号，通过对异常音讯（异音）的分析与甄别，从而判定被监测对象是否存在运行故障，并确认故障类型。对于声音信号特征分析已经形成多种基础理论。就轨道交通而言，其核心的内容是对车辆行驶声音信号的特征参数进行提取与分类。如何对声音信号进行分析与分类又有时域特征参数与频域特征参数之分。

1.时域特征提取方法

1）过零率

过零率指的是单位时间内信号通过零电平的次数。短时过零率表示在一帧声音信号中，时域波形通过零电平的次数。过零率是声音信号时域特征提取方法中最基础的一种［38］。

过零率的计算为

pagenumber_ebook=96,pagenumber_book=87

其中，

pagenumber_ebook=96,pagenumber_book=87

pagenumber_ebook=97,pagenumber_book=88

式中，x（n）是信号的抽样值；w（n）为矩形窗；N为窗长度，一般取256。

在声音信号识别中，过零率用于判断目标声音信号起止点位置，主要应用在环境噪声对声音信号影响较小的情况。

2）短时帧能量

声音信号的能量随时间而改变，声音信号的短时帧能量是反映能量幅度变化的特征参数。定义以t为标志的单帧声音信号的短时平均能量为E（t）［39］。

其计算式为

pagenumber_ebook=97,pagenumber_book=88

式中，t又称为帧序号；st（τ）为声音信号的采样值；L为帧长，取L=256。

3）短时平均幅度

短时帧能量的理论原理是通过计算所有采样值的平方，直接增加了原本存在幅值差异的两相邻采样值之间的幅度差值。可是，随着幅度差值的增大，合理选择时间窗宽度就成为一个需要有效解决的问题。因为只有选取的时间窗相对较宽才能有效平滑采样区间的平方幅度变化情况，可是这又会使E（t）不能充分体现声音信号能量实时变化的特点。于是，需要引入另一个能够表示声音信号短时能量时变特性的参数，这就是短时平均幅度。其计算式为

pagenumber_ebook=97,pagenumber_book=88

选择一帧声音信号，对该帧信号的取样值取绝对值求和计算，便得到该帧声音信号的短时平均幅度。如果对完整声音信号中的每一帧信号分别计算平均幅度，从而能够求得完整声音信号的短时平均幅度特征。与短时帧能量相比，短时平均幅度与其有相似的特性，但因为没有平方运算的步骤，所以得到的结果与声音信号能量的实际变化规律更加接近。

4）能零比

能零比检测法：在语音信号中，存在语音的时段能量是向上凸起的，而过零率有所不同，在存在语音的时段幅值是相对向下凹陷的，这是因为高斯随机噪声中包含大量的高频成分，高频意味着较高的短时过零率，而语音频率主要集中在3 kHz以下。因此在背景噪声较大时，存在语音的时段能量幅值大，而同时段过零率幅值小；在只有噪声的时段能量的幅值小，而过零率幅值大。因此将能量值与过零率值相比，更能突出存在语音的时段，降低了噪声时段的幅值，进一步拉开了存在语音的时段和噪声时段的幅值差距，更好地识别了语音存在时段的端点。

当声音信号的时间序列为x（n）时，经过加窗、分帧处理后，得到的第i帧声音信号为xi（m），帧长为N，则每一帧的能量为

pagenumber_ebook=98,pagenumber_book=89

在这里引入改进的能量计算关系

式中，a为常数。

当a取较大的数值且AMPi幅值有较大变动时，将使得LEi有效降低，所以适当选择a，能够有效区分环境噪声和目标声音信号。

为了保证过零率计算的稳定，降低声音信号中可能会存在的一些较小的零漂移，当输入加窗、分帧后的声音信号xi（m）时，需要进行中心截幅处理，可得

pagenumber_ebook=98,pagenumber_book=89

式中，δ是一个很小的值。中心截幅后再计算每一帧的过零率Zi，得

pagenumber_ebook=98,pagenumber_book=89

式中，

pagenumber_ebook=98,pagenumber_book=89

按改进的能量计算值和过零率就能给出能零比

式中，取b=1，可防止Zi=0时的能零比Ei溢出。

2.频域特征提取方法

1）小波子带能量

小波变换是在短时傅里叶变换的基础上引入的一种窗口大小固定不变，但其形状可改变的时频分析细化方法。因为可改变窗口形状，所以小波变换能进行时间（空间）频率的局部化分析，通过展缩平移运算可对信号进行多尺度细化分析，从而实现了高频处时间细分、低频处频率细分的目的，小波变换能够依据时频信号分析的具体要求，对信号的不同位置进行细节分析，解决了傅里叶变换无法有效分析非平稳信号的问题。

（1）连续小波基函数。

设ψ（t）为平方可积函数，即ψ（t）∈L2（R），若其傅里叶变换ψ（ω）满足条件

pagenumber_ebook=99,pagenumber_book=90

则称ψ（t）为母小波函数，式（3-12）为小波函数的容许条件。

将ψ（t）进行展缩和平移变换，就可以得到小波基函数ψα，τ（t），则有

pagenumber_ebook=99,pagenumber_book=90

式中，α为展缩参数，τ为平移参数。由于α和τ都取连续变化的值，所以此处称ψα，τ（t）为连续小波基函数。

（2）连续小波变换。

令f（t）∈L2（R），对其做连续小波变换，结果WTf（α，τ）如下式所示

pagenumber_ebook=99,pagenumber_book=90

在ψ（ω）满足容许条件的情况下，其逆变换公式为

pagenumber_ebook=99,pagenumber_book=90

（3）离散小波变换。

为了减少小波变换系数的冗余度，对 pagenumber_ebook=99,pagenumber_book=90 中的α和τ进行离散化取值。对展缩参数α进行幂级数离散化，即令a=，a0＞0，m=Z，得到的离散小波函数ψαj0，kτ0（t）为

pagenumber_ebook=99,pagenumber_book=90

为了防止信息丢失，对τ进行均匀离散取值，即τ=，于是小波函数修改为

pagenumber_ebook=100,pagenumber_book=91

则离散小波变换又可表达为

pagenumber_ebook=100,pagenumber_book=91

在分析声音信号时，一般都会对声音信号做离散化处理，因此离散小波变换可用于处理声音信号。

（4）二进小波变换。

目前，在离散小波变换中常令a0=2，τ=1，由此得到的离散小波称为二进小波，即

若ψj，k（t）∈L2（R），存在两个常数0＜A＜B＜∞，且

pagenumber_ebook=100,pagenumber_book=91

则称ψj，k（t）为一个二进小波。若A=B，则具有最稳定条件。二进小波变换的公式为

pagenumber_ebook=100,pagenumber_book=91

与离散小波变换有所不同，二进小波变换只是对展缩参数做了离散取值，却并未改变平移参数的连续性，所以二进小波变换不会破坏声音信号在时域上的平移不变特性。

（5）小波子带能量。

采用小波子带能量作为特征参数，于是小波系数可以得到时间和声音波形的频率定位信息，这是傅里叶变换所不能得到的［40］。

此时需要采用一组滤波器

pagenumber_ebook=100,pagenumber_book=91

式中，L2为一个有限的能量空间。

信号s的离散小波变换系数可表示为

pagenumber_ebook=101,pagenumber_book=92

式中，s（i）为信号的抽样值；ψ*（i）为小波滤波器组；D（j，k）为离散小波变换系数。

经过小波变换处理后，声音信号被分为不同的子带，每个子带内的小波系数表示对应子带的能量分布。小波变换可以当作用包含低通滤波器和高通滤波器的滤波器组做滤波处理［41］。

2）传统能熵比检测法

能熵比检测法即在等概率分布时，声音信号的谱熵值达到极大值，表明等概率分布时信源的平均不确定性为最大（最大离散熵定理）［42］。

对于正常行车噪声和正常行车声音来说，它的归一化谱概率密度函数分布相对平均，所以它的谱熵值就大。对于列车异常行驶时的声音信号，它的归一化谱概率密度函数分布不均匀，所以谱熵值低于噪声和正常行车声音的谱熵，而异常行驶时异常事件的声音信号能量要大于正常行驶的声音信号能量，通过能量与谱熵的比值来增大正常行车与异常行车的差异，从而判断是否存在异常。

将声音信号表示为x（n），加窗分帧处理后得到的第i帧声音信号为xi（m），则傅里叶变换后表示为Xi（k），下标i表示第i帧声音信号，k表示第k条谱线。此时短时能量为

pagenumber_ebook=101,pagenumber_book=92

式中，k为FFT（快速傅里叶变换）长度，此处只取正频率部分。某一谱线k的能量谱为

则对应信号各频率分量的归一化谱概率密度定义为

pagenumber_ebook=101,pagenumber_book=92

该音频帧的短时谱熵定义为

pagenumber_ebook=101,pagenumber_book=92

若熵函数有如下关系：

对应的能熵比为

3）子带能熵比检测法

子带能熵比检测法的原理与能熵比检测法一致，不同点是将每一帧声音信号重新拆分为几个子带，分别求每个子带的谱熵值，从而能够减小噪声对每条谱线幅值的干扰［43］。

设每个子带包含4条谱线，总共有N个子带，这样第i帧中的第m个子带的子带能量为

pagenumber_ebook=102,pagenumber_book=93

相应地，子带能量的概率p（m，i）和子带谱熵H（i）分别为

pagenumber_ebook=102,pagenumber_book=93

以上传统的声音信号，时域和频域特征提取方法，可以用于采集并建立列车正常行驶下的音讯信息特征而构成相应数据库。尽管在一般情况下，这些传统的声音信号时域和频域特征提取方法并不适用于提取轨道列车异常行驶所发出的声音特征［44］。但是，通过列车声音信号时域和频域特征提取方法所建立起来的列车正常运行工况音讯特征数据库，却可以作为动态音讯的学习样本和故障比对模块。经过多年研究，在列车动力装置异常工况方面已经形成了诸多智能识别技术。其实，较为突出并行之有效的算法及其技术要数支持向量机（support vector machines，SVM）方法。

3.支持向量机

支持向量机是一种学习机，它是在以解决有限样本机器学习为目标的统计学习理论的基础上发展起来的。换句话说，SVM建立在统计学习的VC（Vapnik-Cervonenkis）维理论和结构风险最小化原理的基础上，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度）和学习能力（即无错误地识别任意样本的能力）之间寻找最佳折中，以期获得最好的推广能力。SVM能够有效地避免经典学习方法中出现的过学习、欠学习、“维数灾难”以及陷入局部极小点等诸多问题。SVM又是从线性可分情况下的最优分类面发展而来的，采用的是保持经验风险值固定而使置信范围最小化的策略。

对于动力与传动系统异常现象的智能识别可以通过对系统所发生音响信号的处理与分析来实现对系统运行工况信息的识别与判定。其中，支持向量机就是实现这个过程的有效方法之一。

1）支持向量机的体系结构

（1）在建立从输入向量到高维特征空间的非线性映射过程中，特征空间对输入输出都是隐藏的；

（2）构造一个最优超平面，用于分离在第一步中发现的特征。

支持向量机的体系结构如图3-7所示。在图3-7中，左侧的x1，x2，…，xN表示N维输入向量x的不同分量。K（x，xi）表示将输入数据映射到M维特征空间的神经元传递函数。右侧的输出神经元选用硬极限传递函数，接受固定的偏置b和映射到特征空间的输入数据，实现特征空间中的最优超平面分类。d表示支持向量机的输出值。

pagenumber_ebook=103,pagenumber_book=94

图3-7　支持向量机体系结构图

2）最优分类超平面

所谓最优分类就是要求分类不但能将两类样本正确分开（训练错误率为0），而且能使分类间隔最大。考虑训练样本｛（xi，di），其中xi是输入模式的第i个例子。di是对应的期望响应输出（目标输出）。假定由子集di=+1和di=-1代表的模式线性可分。用于分离超平面形式的决策曲面方程是

式中，w为可调权值向量；x为输入向量；b为偏置，且

pagenumber_ebook=103,pagenumber_book=94

对分类方程，即决策曲面方程（3-33）进行归一化后，使得对线性可分的样本（xi，di）（i=1，2，…，N，x∈RN，di∈｛±1｝）满足

对于一个给定的权值向量w和偏置b，由方程（3-33）定义的超平面和最近的数据点之间的间隔称为分离边缘，在超平面正、负两面的距离称为分类间隔，用ρ表示。支持向量机的目的是找到一个特殊的超平面，使得这个超平面分类间隔ρ最大。在这个条件下，决策曲面称为最优超平面（optimal hyperplane）。在决策曲面的两侧有方程

pagenumber_ebook=104,pagenumber_book=95

令w0和b0分别表示权值向量和偏置的最优值，则决策面的最优超平面为

定义判别函数

(www.daowen.com)

给出从w到最优超平面距离的一种代数度量，将x表达为

pagenumber_ebook=104,pagenumber_book=95

式中，xp是x在最优超平面上的常规投影；r是期望的代数距离；如果x在最优超平面的正面，则r是正值；反之，如果x在最优超平面的负面，则r是负值。

式（3-38）～式（3-40）的几何意义如图3-8所示。在图3-8中，w为最优超平面的法向量；在图3-8（a）中，x处于最优超平面的正面，因此r为正值；在图3-8（b）中，x处于最优超平面的负面，因此r为负值。

由定义可知g（xp）=0，由此可以推出

或

pagenumber_ebook=104,pagenumber_book=95

因此，将目标测试问题转化为对于给定的测试样本数据集Γ=｛（xi，di）｝，需要找到最优超平面参数w0和b0。可以看到一对（w0，b0）必定满足条件

pagenumber_ebook=105,pagenumber_book=96

图3-8　最优分类超平面几何意义示意图

（a）x处于最优超平面的正面；（b）x处于最优超平面的负面

pagenumber_ebook=105,pagenumber_book=96

当式（3-36）成立时，说明模式是线性可分的，则可以通过调整w0和b0的值使式（3-43）成立。如果有某个数据点（xi，di）使得式（3-43）的等号成立，则这个点称为支持向量点，支持向量机由此得名。支持向量是那些最靠近决策面的数据点集合，这些数据点是最难分类的，因此它们和决策面的最优位置直接相关。

考虑一个支持向量 pagenumber_ebook=105,pagenumber_book=96 对应于di=+1，根据定义有

从支持向量x到最优超平面的代数距离是

pagenumber_ebook=105,pagenumber_book=96

式中，正号表示 pagenumber_ebook=105,pagenumber_book=96 在最优超平面的正面，而负号表示x在最优超平面的负面。

令ρ为两个类之间分离边缘距离的最优值，两个类构成训练集合为Γ，因此得到

pagenumber_ebook=105,pagenumber_book=96

式（3-46）说明，两个类之间的分类间隔最大化等价于权值向量w最小化时的欧几里得范数。

由式（3-38）定义的最优超平面是唯一的，即意味着最优权值向量w0提供了正反例之间的最大可能分离。这个优化条件是通过权值向量w最小化时的欧几里得范数获得的。

如图3-9所示，以二维为例来说明最优分类思想的示意图。图中的实心点和空心点代表两类样本，H为分类线，H1、H2分别为通过各类、离分类线H最近的样本且平行于分类线H的直线，H1与H2之间的距离称为分类间隔ρ，H1（或H2）至分类线H的距离为r。

pagenumber_ebook=106,pagenumber_book=97

图3-9　线性可分情况下的最优分类示意图

3）最优分类超平面的求取方法

（1）线性可分模式的分类计算。

要找到最优分类超平面，需要求解下面的二次规划问题（最小化泛函）

pagenumber_ebook=106,pagenumber_book=97

其约束条件为

这个优化问题的解是由下面的拉格朗日（Lagrange）函数的鞍点给出的

pagenumber_ebook=106,pagenumber_book=97

其中，αi为拉格朗日系数（又称拉格朗日乘子），αi≥0。在鞍点上，L取最小值，此时w=w0，b=b0，满足

pagenumber_ebook=106,pagenumber_book=97

即约束最优问题的解由拉格朗日函数的鞍点决定，拉格朗日函数对w和b必定最小化，对α必定最大化。

鞍点对应每一个拉格朗日乘子αi，乘子与其相应约束的乘积为0，即

只有精确满足上式的乘子才能假定非零值。

确定用α0，i表示最优拉格朗日乘子以后，可以计算最优权值向量w0：

pagenumber_ebook=107,pagenumber_book=98

使用获得的w0可以计算最优偏置b0。对于一个正的支持向量有

（2）线性不可分离数据点的分类计算。

最优分类超平面是在线性可分前提下讨论的，多数模式识别分类问题在原始的样本空间内，样本点都是线性不可分的。所谓线性不可分，就是某些训练样本不能满足式（3-48）的条件。上述线性可分模式的分类算法应用到线性不可分的数据将会找不到可行解，这点可通过目标函数的任意增大来验证。

在线性不可分的情况下，SVM用一非线性映射函数RN→F，把原始空间的样本映射到高维特征空间F（也可能是无穷维的），然后在此高维特征空间内构造最优分类面。

对于某一组训练数据，不可能建立一个不具有分类误差的分离超平面，这时仍然需要找到一个最优超平面，使它对整个训练集合的分类平均误差的概率达到最小。

定义：如果数据点（xi，di）不满足条件

则有两种情况发生：

①数据点（xi，di）落在分类间隔区域之内，但在决策面正确的一侧；②数据点（xi，di）落在分类间隔区域之内，但在决策面错误的一侧。称此时类之间的分离边缘是软的。对于情况①分类仍然是正确的，对于情况②分类是不正确的。

为了能够建立不可分离数据点的处理（计算）方法，引入一组非负标量变量到决策面的定义中

式中，ξi为松弛变量，用于度量一个数据点对模式可分的理想条件的偏离程度。当错误产生时，相应的ξi必须达到一致，所以 pagenumber_ebook=107,pagenumber_book=98 是训练错误数的一个上界。对于0≤ξi≤1，表明数据点落入分类间隔区域的内部，但是在决策面的正确一侧。对于ξi＞1，表明数据点落到分类超平面的错误一侧。支持向量是精确满足di（w·xi+b）≥1-ξi的特殊数据点集合。