理论教育 声纹识别在轨道交通系统中的关键应用

声纹识别在轨道交通系统中的关键应用

时间:2023-09-01 理论教育 版权反馈
【摘要】:近年来,从声音中提取每个人特有的声纹信息来进行身份鉴别的声纹识别技术引起了众多国内外学者的关注与研究。

声纹识别在轨道交通系统中的关键应用

声纹与指纹、掌纹、DNA、视网膜、虹膜、血管纹路等一样,是每个人固有的生物特征,具有唯一性和稳定性。近年来,从声音中提取每个人特有的声纹信息来进行身份鉴别的声纹识别技术引起了众多国内外学者的关注与研究。声纹识别同样要涉及信号预处理、声纹特征提取和声纹特征匹配等技术流程。

1.声纹信号预处理

语音信号的质量在一定程度上影响到声纹识别系统的准确率。在现实环境中,硬件设备、传送媒介、环境噪声以及其他讲话人都会影响到语音信号的质量。此外,移动变化的声源信号也会对采集工作产生负面影响。在传送语音信号前,需要对语音信号进行去噪处理,从而提取纯净的语音样本信号,因此在预处理阶段降噪技术的运用至关重要。对原始语音信号进行预处理是声纹识别系统中的起始步骤,是至关重要的一个流程,直接影响到声纹识别系统的准确率。

语音信号属于一维信号,它随着时间变化而变化,作为一种非平稳的时变信号,包含了丰富的内容信息。预处理通常是对原始语音信号执行去噪、分帧加窗、端点检测等操作。研究人员往往使用“短时平稳技术”,这是由于一维的语音信号原本就属于非平稳时变信号,如果用处理平稳信号的方法来处理非平稳信号显然是行不通的。研究人员对语音信号的形成过程进行研究发现,人类声音的形成与口腔肌肉运动密切相关,但是口腔肌肉运动速度是比较缓慢的,远小于声音振动的速度。于是在极短的时间范围中,语音信号可以当作是拥有短时平稳的性质。在这个预处理过程中,主要运用的方法有麦克风阵列去噪、预加重、分帧加窗、端点检测等处理技术,而且实用性非常强。

1)麦克风阵列去噪

在复杂多变的实际背景下,通过传统的单个麦克风采集到的语音信号往往是由环境噪声与多声源组合而成的混合语音信号。在20世纪90年代以后,为了削弱现实环境中噪声对语音信号的影响,科研人员开发了基于麦克风阵列的语音信号采集技术。麦克风阵列是指一组按不同位置、一定空间间距摆放的麦克风。它的原理是通过声源信号传播到每个麦克风之间的相对时延来定位声源的方向。

判断这种声源的方向涉及波束形成技术(beamforming,BF),波束形成是指对每个麦克风在输出相位与时间上进行延后补偿,并对幅度做加权处理,最终产生指向声源方向的波束。麦克风阵列技术对声源具有较强的选择性,可以相对精准地判断语音信号的传播方向以及来源方向。麦克风阵列对于信号方向外的干扰与噪声可以有效地避免,由于其抗噪效果明显,现在被广泛运用在耳机、音箱制造业、语音通信技术以及各类电子产品中。

2)预加重

根据人类发声器官的结构与声音信号的产生原理,说话过程受到口鼻辐射以及声门激励的影响,语音中的高频信号会被削弱。综上所述,我们对声音信号进行特征参数提取前,需要对原始声音信号高频区域实施预加重处理。其工作原理是将原始声音信号输入一个一阶高通滤波器,这样语音信号中高频区域的信号幅度会有所升高,低频区域幅度有所降低。对原始语音信号实施预加重处理的作用主要是提升了高频区域的分辨率,有利于后续的特征提取与分析。

3)分帧加窗

语音信号作为一种典型的非平稳时变信号,通常情况下一个音节在10~30 ms内保持不变。在这个瞬时范围内,发声器官的运动方式相对恒定不变,语音信号的各种特征参数基本维持稳定,因此采用短时平稳技术来分析声音信号。在连续的语音信号中截取长度为10~30 ms的信号作为一个帧,为了防止相邻两帧之间变化差异过大,一般分帧时会做交叉重叠处理,重叠区域的面积通常为整个帧面积的三分之一至二分之一。为了防止帧与帧之间遗漏信息,需要对分帧后的音频信号进行加窗处理。使用合理的窗函数,可以对短时语音帧特征参数进行分析,能够更好地体现音频信号的特征变化。矩形窗和汉明窗是经常使用的窗函数,但使用矩形窗的缺点是其频谱容易遗漏,而汉明窗由于其主辨宽度较宽,低通性能更优越,能更好地保留语音信号的特征参数,因此选择汉明窗更合理。

4)端点检测

时域的声音信号除了包括纯粹干净的语音信号,还包括静音与噪声部分,采集语音信号时并不全是有效信息。为了除去静音部分,通常对语音信号实行端点检测的方式来识别语音信号的起始点。这样不仅能够提取出有效的语音信号,删除静音部分,还能在一定程度内减弱噪声,降低数据运算量。当前,端点检测已经取得了一定的研究成果,通常用的研究方法有过零率法、短时能量法、基于过零率与短时能量的双阈值法。(www.daowen.com)

过零率是一种较为简单的方法,一般用电平信号正负交替显示。它的判断依据:过零率较小为浊音,过零率较大为清音。短时能量法依据能量函数来区分清音与浊音;帧能量较大的为浊音,帧能量较小的为清音。然而,在实际应用中,仅仅依靠过零率或短时能量确定声音信号起始位置并不是很准确,往往会综合考虑这两种特性来确定语音信号起始点的位置。

2.声纹识别中的特征提取

特征提取的目的是用较少的信息来描述语音信号,也就是说对原始语音信号提取出能够描述其主要特征的鲁棒性参数。对于提取出来的特征参数要求可靠、稳定并且容易提取。经过对声纹识别技术多年的研究与发展,已经找到了一些可靠的特征参数来描述语音信号。

声纹识别模型几乎都是用声学层面的特征参数来作为识别标准的,但判断说话人身份的个性因素是多方面的,包含人体发声器官结构有关的声学特征,例如音色、振幅、频率、共振峰、反射系数、频谱与倒频谱等;个人说话习惯,如语速快慢、音量大小、语调高低等;个人受教育程度,例如受老师或父母影响的韵律、修饰、语义、用词等。

1)选取特征参数的标准

一般来说,我们通过语音采集装置采集到的最原始的语音信号是不能直接作为声纹识别模型的输入。有三个方面的主要原因:第一是因为最原始的语音信号没有经过任何处理,包含许多不明确、不稳定的因素,这些未知的因素可能会对声纹识别系统模型的训练以及准确率造成极大影响;第二是因为最原始的语音信号数据含量大,系统模型的计算量与运行时间也会大大增加,同时数据的存储负担也会变大;第三是因为受到系统模型的输入要求影响,例如基于卷积神经网络模型的声纹识别,其输入一般是二维的语谱图,而不是最原始的语音信号。

要得到声纹识别模型输入的特征参数,我们一般需要对原始语音信号实行分帧操作。由于声纹特征由语音信号每帧中的特征参数形成,因此特征参数种类的选择对系统精度的影响尤为重要。

2)特征参数的分类

在声纹识别技术中,由于语音信号存在不稳定性、语音信号特征参数容易丢失、实际环境比较复杂、语音容易被模仿、样本参数不足等问题,声纹识别技术特征参数的提取方法与方式有待更进一步优化。选择不同的特征参数,其系统识别率也会不同,选择合理的特征参数不仅可以提升声纹识别系统的稳定性与鲁棒性,还可以提高识别率。声纹识别技术发展至今,使用的特征参数大致归为三类:①通过语音频谱直接导出的数据,包括共振峰、感知线性预测系数(PLP)与梅尔频率倒谱系数(MFCC)等;②线性预测系数与它的派生系数,例如线性预测系数(LPC)、线性预测倒谱系数(LPCC)以及它的组合参数等;③混合参数,由以上不同特征参数组成的特征矢量

3.声纹模式匹配

识别模型的选择是声纹识别技术的重点,采用不同的模型,声纹识别的效果也会不同。声纹识别是典型的模式识别,声纹识别系统中的模式匹配是模式识别中对算法进行的分类。在声纹识别系统中为说话人建立一个模型库,在训练阶段得到说话人的模型参数,在测试阶段通过模式匹配打分得到最终的得分。常用的模型有概率统计方法、人工神经网络(ANN)、矢量量化方法(VQ)、动态时间规整方法(DTW)、高斯混合模型(GMM)、GMM-UBM和判决规则等[70]

人脸识别+声纹识别无疑会进一步增加轨道交通人流通行过程中的安全性冗余度,进而实现AI技术在轨道交通系统中的科技全覆盖。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈