理论教育 探寻语音情感信息加工的先进方法

探寻语音情感信息加工的先进方法

更新时间:2025-01-03 理论教育 版权反馈
【摘要】:一般地说,识别语音中的情感的工作流程分为以下几个部分:对语音信号根据需要进行预处理,然后提取跟情感相关的特征信息,进一步根据这些特征进行分类,最后得出识别结果。语音信号的前4个共振峰经常用作情感识别的特征参数。语音情感识别的难点主要在于定量地描述语音特征与情感的关系,目前还缺乏这方面的数学模型。

语言是人类交际的最重要的交流工具。人类的话语中,不仅包含了文字符号信息,而且还包含了人们的感情和情绪等信息。目前从语音中提取情感,只是研究了少数几种情感的识别,比如喜悦、愤怒、忧伤、惊奇等,或只识别平静(Neutral)和紧张(Stresssed)两种类型情感。Xiao Lin等认为,与一般说话相比,带情感的语音在以下三组参数中存在变化:语音质量、音调和说话速度[15]

一般地说,识别语音中的情感的工作流程分为以下几个部分:对语音信号根据需要进行预处理,然后提取跟情感相关的特征信息,进一步根据这些特征进行分类,最后得出识别结果。研究发现,基音是语音情感识别中最重要的特征,其次是语音的能量,然后才是发音持续时间、发音速率等其他声学参数。①基音频率在语音的情感识别中具有很大的重要性,浊音的声带振动基本频率称为基音频率。基音频率的最大值、最小值、平均值、范围等经常被用作情感识别的特征参数。②共振峰是反映声道特性的一个重要参数。声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣器作用。当元音激励进入声道时,会引起共振特性,产生一组共振频率,这就是共振峰,它一般包括共振峰频率的位置和频带宽度。语音信号的前4个共振峰经常用作情感识别的特征参数。③能量是用于识别语音中情感的重要特征之一。对于能量方面的分析,常用的特征参数有振幅平均能量、动态范围和相应的平静语句的振幅平均能量、动态范围的差值等。欢快、愤怒、惊奇三种情感发音信号和平静发音信号相比,振幅将变大;相反地,悲伤和平静相比,振幅将减小。而且情感信号具有这样的倾向,即欢快、愤怒、惊奇的平均振幅越大,悲伤的平均振幅越小,其情感效应表现越明显。④语句发音持续时间是指每一语句从开始到结束的持续时间。Nicholson确定一句话的开始和结束的位置采用的方法是:把语音能量和预先设定的能量阈值作比较。当语音能量超过这个阈值,并且在接下来的连续几帧都高于这个阈值,标志着一句话的开始。当语音能量连续几帧低于这个阈值时,表示一句话的结束。[16]

在选定特征并提取出特征以后,接下来的工作就是分类。语音情感的识别方法主要有以下几种:

1.基于一定规则的分类方法

这类方法对提取的语音参数进行简单的处理,然后按照一定的规则对情感进行分类,比如Xiao Lin等的方法[15]。他请了74名大学生,男女各半。这些学生被要求说如下两句话:①This is my table;②I have won a prize。每个人将每句话说两遍,第一遍不带情感,第二遍带有预定的情感。分析方法如下:计算出最高和最低的基音频率的差别,按照最高和最低值的顺序,音调被分为升调(Rise)、降调(Fall)和平声(Flat)。它们用下列公式表示:

Flat=|F0k-F0k+1|≤δ (8-4)

Rise=(F0k-F0k+1)<-δ (8-5)

Fall=(F0k-F0k+1)>δ (8-6)

式中,k为时间槽;δ为音调平缓程度(Flatness)的阈值;F0k为在k时段采样的声音频率(音高或音调)。

为了研究句子音调的平缓程度,使用了不同的阈值δ。当音调的平缓程度超过一定百分比时,就认为句子是不带情感的,否则认为句子带有某种情感。实验发现,总的识别率在82%左右,对男声的识别准确率高于女声。这个实验所用到的语句集很小,且只区别不带情感和带有某种情感两种情况,虽然识别率比较高,但是这并不能说明这种方法是十分有效的方法,只能说明音调对于提取语音中的情感是有效的。(www.daowen.com)

2.模式识别方法

Chul Min Lee等[17]把语音情感识别归结为模式识别问题,并提出了三种方法:线性差异识别法(Linear Discriminant Classifier,LDC)、k领域识别法(k-Nearest Neighbour Classifi-er,k-NNC)、支持向量机分类器(Support Vector Machine Classifier,SVC)。LDC是带有高斯概率分布的参数方法,估算完参数的均值和方差后,LDC利用贝叶斯(Bayes)准则,计算出最大后验概率对情感进行分类。k-NNC通过计算k邻域的平均值估计每类情感的局部后验概率。在SVC方法中,用非线性的映射方法将输入向量映射到更高维的特征空间中进行计算。

Bjom Schulle对将HMM运用于语音情感识别做了研究[18]。他采用了两种方法:一种是从语音信号的音高(Pitch)和能量轮廓(Energy Contour)中提取参数,用单一状态HMM对全局参数进行计算;另一种方法使用了连续的隐含马尔可夫模型(CHMM),使用语音信号的瞬时特征来取代全局参数,这是一个6维特征向量mi,如下式所示:

式中,F0表示瞬时音高;E表示瞬时能量;i表示窗口编号。研究发现,采用更多状态的模型能够达到更好的效果。

3.基于神经网络的方法

T.Yamada等对将神经网络应用于提取语音中的情感进行了研究,这些情感包括悲伤、兴奋、欢乐和愤怒。对于这些基本的人类情感,运用神经网络可以达到70%识别率[19]

H.Sato等也采用了神经网络技术,其方法分为两步:第一步是语音韵律的提取;第二步使用神经网络对情感进行分类。神经网络有三层,采用BP方法进行学习。29个输入节点中的28个用来输入第一步所提取的语音信息,最后一个用来输入它们的平均值。2个输出节点中,一个代表平静时的情感,另一个代表愤怒、悲伤或欢乐。该方法只能把平静时的情感和其他三种情感区分开来,还不能具体识别每一种情感[20]

语音情感识别的难点主要在于定量地描述语音特征与情感的关系,目前还缺乏这方面的数学模型。从识别的结果来看,识别率还比较低,目前独立于说话者的识别率在50%左右,针对说话者的识别率比较高,一般在70%以上,如果只区分紧张和不紧张可以得到更高一些识别率。对某些情感,识别率较高,某些情感容易被混淆,原因正如Silva所说的,即使是人,也不一定能准确区分某些情感,比如忧伤和厌恶经常被混淆,愤怒和惊奇亦是如此。一般认为,将语音的情感识别技术和其他技术相结合,有助于提高情感识别的准确率。许多学者已经把语音情感识别和人脸表情识别结合起来研究。另外,语音中情感的识别和合成带有情感的语音是相辅相成的。合成情感语音最重要的韵律参数包括振幅和基音频率,通过修改平静时语音的发音持续时间、基音和振幅来产生带有情感的语音。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈