理论教育 半自动语音识别向量及法律语言学研究发现

半自动语音识别向量及法律语言学研究发现

时间:2023-10-15 理论教育 版权反馈
【摘要】:我们的早期研究和选择的一组基本的向量与史蒂文斯提出的几个特征达成了一致。在研究的几个特征中,作为说话人识别线索,有四点最有用:第一种向量,长期频谱。其是一种反映一般话语质量的向量。它基于听觉感知和计算机相关领域的研究,认为驻留在元音共振峰结构内的元素可以为话语者识别提供重要的线索。VFT对比以Log2为基本数据计算模式向量发展的最后一步是将所有值标准化为10点量表上的比例。

半自动语音识别向量及法律语言学研究发现

史蒂文斯(Stevens 1971)对许多话语特征进行了编目,当应用时,应该通向成功话语者识别。我们的早期研究和选择的一组基本的向量与史蒂文斯提出的几个特征达成了一致。这些向量之所以被选择,是因为他们显示出了以下几点可能性:(1)对于说话者之间的区分通常具有高灵敏度;(2)与其他参数组合时的效用;(3)抗失真性;(4)可用性;(5)电脑处理的兼容性。在研究的几个特征中,作为说话人识别线索,有四点最有用:

第一种向量,长期频谱(LTS)。其是一种反映一般话语质量的向量。有大量的相关研究都对长期频谱做了报道,并且发现它是相当强大的标识符(Gelfer et al.1989;Hollien and Majewski 1977;Jiang 1995;Kraus et al.2009;SteffenBatog et al.1993;Zalewskiet al.1975),特别是当失真存在时(例如噪声、带通、话语者压力)。通过图6-11我们可以很好地加以理解。在这里,对两个个体的长期频谱曲线进行数学比较(通过欧氏距离),可以确定它们是由一个还是两个话语者产生的。

第二种向量(时间分析或TED)是基于韵律比较的汇编(Bricker and Pruzansky 1966;Gelfer et al.1989;Jacewicz et al.2010;Jiang 1995;Johnson et al.1984;Kraus et al.2009)。它试图通过混合时间能量分析来识别说话者。也就是说,一个参数向量(见图6-12)由样本中话语段的数目和长度构成。其中包括:(1)总话语时间;(2)静默间隔数;(3)静音间隔长度;(4)话语暂停率;(5)总话语时间比;(6)总时间;(7)音节率。时间分析向量已被证明是所选择的四种向量中最不稳定的,但是研究已经证明其个体使用率是合理的,并且与其他三个向量相此,该过程有强化趋势。

第三种向量是话语基频(SFF)度量。(Atal 1972;Hollien et al.1975;Iles 1972;Jassem et al.1973;Jiang 1995;Kraus et al.2009;LaRiviere 1975)它是基于几何平均数(水平)、发音比率、标准偏差(变异性)与分类为半音间隔的F 0的个体实例(见图6-13)之间的比较。这个特定SFF向量的选择是建立在大量听觉感知和基于机器研究的证据的基础上的。

图6-11 LTS矢量。图表显示两个话语者在30秒之内的阅读散文文本(A和B)的所有频率测量表。图表显示,所有产生的个体音素证据都被忽略不计。与曲线B相比,曲线A的LTS矢量成为一个显著线索,被认为反映了基本的声音质量

图6-12 TED矢量图表显示TED数据如何被收集。所有的参数都以从计算的噪音层到最大峰值的十等距进行测量(www.daowen.com)

图6-13 SFF矢量。该图以FFI-10显示了一个男性话语者的基础频率数据。SFF对比中使用的数值由表格上线的直线及表格本身所显示

第四种向量是元音共振幅跟踪(VFT),它已被证明是最强大的一个。(Bachorowski and Owen 1999;Iles 1972;Jiang 1995;Koval and Krynov 1998;LaRiviere 1975)事实上,它与长期频谱是对特定说话人差异最敏感的测试。它基于听觉感知和计算机相关领域的研究,认为驻留在元音共振峰结构内的元素可以为话语者识别提供重要的线索。就图6-14而论,模式应可视化为复制多次。

图6-14 VT向量。图标显示一个话语者在发长元音时的线性声谱图。值得注意的是,当停顿期以赫兹标记时,缩放功能成几何性增减。VFT对比以Log2为基本数据计算模式

向量发展的最后一步是将所有值标准化为10点量表上的比例。这种方法防止较大绝对测量(和其他向量相比)的矢量被不成比例地偏置分析。由于该过程均衡了每个向量的影响,所以它们可以组合而不会受到其中一个或多个向量偏置结果影响。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈