理论教育 背景及法律语言学研究结果:83%识别率暴露后大幅下降至13%

背景及法律语言学研究结果:83%识别率暴露后大幅下降至13%

时间:2023-10-15 理论教育 版权反馈
【摘要】:从暴露后的正确识别的83%到大约5个月之后只有13%。为了进行识别,识别者必须要了解允许说话者身份鉴定的元素和条件以及不利于该过程的条件。毫无疑问,发声机制的总体质量对于其自身的识别有促进作用。在这种情况下,质量将成为控制因素。众所周知,审核员可以听出一个人谈话的快慢,以及当时情景是平和还是激烈的。但无论如何,评估强度变化模式已被证明是有用的。

背景及法律语言学研究结果:83%识别率暴露后大幅下降至13%

听觉感知(AP)领域的最早研究之一是由心理学家麦吉(McGehee,1937)进行的。她对查尔斯·林德伯格对布鲁诺·豪普特曼(Bruno Hauptmann,被判定绑架及杀死林德伯格的孩子的声音)的观察结果很感兴趣。她的程序是让审计员听一个男性说话者(他们不知道),然后在同一性别的其他谈话者的群体中识别他,并各种延迟时间(1天到5个月)。麦吉(McGehee)报告说,正确识别的百分比最初是相当高的,准确性的衰减是逐渐的但是稳定的。从暴露后的正确识别的83%到大约5个月之后只有13%。在很大程度上,当代研究证实了麦吉(McGehee)的发现,如霍利恩、凯斯特、诺兰、波拉克、舍特、雅美(Hollien 2002;Hollien et al.1982;Koester 1981;Nolan 1983;Pollack et al.1954;Shirt 1984;Yarmey 1991)。实际上,在那个时间和当前之间已经进行了数百个说话者识别(SPID)实验。在这里不可能审查它们中的很多,但是出现了两种关系:(1)存在在话语及话语信号内的说话者的特定元素,其允许有效的说话者识别;(2)可用的策略和方法允许取证语音学家进行成功的识别。

为了进行识别,识别者必须要了解允许说话者身份鉴定的元素和条件以及不利于该过程的条件。在口语的音段和超音段中我们能发现一些有利因素;另一些则融入了其所处的过程和环境之中。实际上,这些有助益的话语特征常被普通人用于日常识别“自然”的超音段音位。包括:(1)基本频率,包括水平,变化性和模式;(2)话语,特别是一般质感、声轨流、颤声;(3)话语韵律与语速、节奏、不连贯性、重音;(4)强度,主要强弱变化;(5)复杂关系,例如变音和变调。此外,还有很多其他的特征,属于音段特征的也都重合并被添加到了此列表中。例如,辅音和元音(特别是共振峰)中的变化和模式体现在辅音集群中,以及语言使用、方言、协同发音、鼻音、语言障碍等方面。有关这些特征的早期优秀评论出自斯蒂芬(Stevens,1971)和后来的霍利恩(Hollien,2002)。

其他与识别任务明确相关的联系如下:(1)大量的话语样本;(2)质量上佳的样本;(3)接触说话者的话语;(4)听者的天资;(5)话语训练;(6)结构化且有效的分析技术。(Hollien 1990,2002;Hollien and Majewski 2009)另一方面,还有一些可能不利于身份鉴定的关联如下:(1)多个说话者;(2)耳语或假音;(3)多个说话条件;(4)与文本无关的样本;(5)伪装或压力;(6)不同的身体状况;(7)酒精、药物;(8)不同的方言;(9)声音的相似性;(10)噪音。(Broeders 1996;Campbell et al.2009)

如上所述,一个人话语包含的一些特征可以被编入听觉-感知说话者识别的计划中。其有如下特征:

1.话语基频(SFF)或者说听到的音调。这里的关注点在于一般说话音高(高、中、低)以及使用音高的可变性和模式。

2.发音。这里的核心是发出特殊的元音或辅音,以及元音共振峰的峰值和比率。为了有效对比,一个人发出的音素必须在某种程度上不同于其他人发出的音素。

3.话语质量。毫无疑问,发声机制的总体质量对于其自身的识别有促进作用。例如,即使同一个人以相同的强度先后用两种不同的乐器弹奏相同的音符,区分这两种不同类型的乐器也是可能的。在这种情况下,质量将成为控制因素。当然,还可以使用其他种类的话语质量(例如,颤音的使用)。

4.话语韵律。一个人说话的节奏或停顿模式也可以被运用到识别中。众所周知,审核员可以听出一个人谈话的快慢,以及当时情景是平和还是激烈的。因此,说话的节奏和音调可以为识别提供一些线索。

5.声音的强度。确切的声音难以评估,因为即使是微妙的环境变化或是说话者和麦克风之间的距离变化也会导致能级变化巨大。但无论如何,评估强度变化模式已被证明是有用的。

6.通用语言。有几个通用语言的特征也很重要,包括如下因素:(1)方言;(2)语言重音的特殊使用;(3)特殊语言模式;(4)说话障碍;(5)特殊发音。

法律类研究为数颇多(e.g.Hollien et al.1982;Huntley 1992;Koester 1981;Nolan 1983;Shirt 1984;Yarmey 1991),这些研究试图评估人类的听觉和认知处理听到的信号。这些研究几乎都是基于两种情境:要么,实验者与嫌疑人短暂相遇且作用不大;要么,实验者所处情况相当具有挑战性。想想看,一个听者仅仅只能听混合着噪音和其他人说的话语样本的(讲话者)简短的话语就要识别一个自己“认识的”人,这将是一件多困难的事。这类研究所基于的许多实验对审核员来说都是具有挑战性的。这些实验几乎没有一个是简单的。然而,即便如此许多法律类实验显然依然证明了听觉机制的辨别力以及其在识别说话者方面有多么的敏锐,即使法律模型有明显的局限。(www.daowen.com)

这里需要提到一个提供关键信息的实验(Hollien et al.1982),即一个采取三组听众的实验:(1)熟识说话者的听者;(2)不认识说话者,但至少接受过2小时识别说话者声音培训的听者;(3)不认识说话者也不知道其所使用的语言(但也经过短暂训练)的一组听者。说话者是10名成年男性,他们按照以下三个条件说出短语长度的样本:(1)正常话语;(2)因受惊而导致压力下发出的话语;(3)伪装话语。听众会听到了10名说话者的60个话语样本的磁带(每个说话条件包括2次)随机播放,然后指出每个说话者。图6-8清楚地显示了实验结果。可以看出,认识说话者的听者的准确率接近100%,无论是正常的还是重读的话语。此外,即使有伪装,他们也可以辨认出说话者是谁(80%的准确率)。大学生的表现不佳,但他们天生的处理能力和他们接受的短期训练使他们能够成正确识别,以2倍概率达到了起过基准线4倍的结果。即使部分不说英语的波兰人也超过基准线,考虑到声音展示的程序条件非常严苛,这些数据还是挺令人震撼的。因为,在单个试验中要播放所有的60个声音样本,听者听完一个声音样本后必须迅速识别说话者,从姓名列表上找到说话者,然后在下一个声音样本播放之前,在答案表上填好相应的数字。

图6-8 话语者身份识别。该图表显示了10个话语者的三种情况下进行对话的正确身份识别。这三种情况分别为正常(N),高压(S)和伪装(D)。A组对话语人非常了解;B组和C组对话语人并无过多了解,但是受训进行话语者身份识别。同时,C组成员不懂英语。

虽然我们现在所进行的是一个对听觉感知-说话者识别的材料以及基于话语的计算机分析的理由的一个简单综述,但是它同时为法律情况下的听觉识别鉴定方法打下了基础,即一个听者的判断只基于听到的刺激时,由法律语音学家所使用的方法。如果他们(1)训练有素,(2)经验丰富,(3)采用结构分析技术,他们通常会成功。当然,他们应该在语音科学,特别是法律语音学方面接受过研究生培训,并且他们的识别效率或他们的识别率必须被验证和明确。他们还应该能够采用像文中的听觉感知-说话者识别和其他身份分析中所使用这种类型的精确范例。也就是说,嫌疑人的样品应该用优质的设备处理嫌疑人的样本;它们还应包括测试记录和完整的文档(日志,标签等)。通常需要三种类型的话语来确保(1)获得足够的样本,(2)它适合于所有分析过程,以及(3)(特别是)它要应对一切伪装尝试。具体来说,第一个环节应当是即时的,它应该减少压力,确保话语在“自然”状态下产生。此外,受试者应该阅读(或说出)在证据记录上发现的或者据报告由犯罪者说出的词语和短语。同时,要尽量防止嫌疑人以单调音或伪装的声音说话。针对这一问题,可以激励受试者或给受试者试压。最后,最好能让嫌疑人大声朗读。

当然,在需要对证据录音上的材料进行一定程度的控制的情况下,这些建议不能有所帮助,因为那时可能发生信道失真(噪声、电话频率等)或说话者问题(兴奋、压力之下、多个说话者、重叠话语等)。尽管如此,它对于意识到这些挑战并在可能的条件下应对它们很有帮助。

在听觉感知-说话者识别分析中至关重要的是如何判断话语样本是否匹配或不匹配,以及如何量化响应。笔者为此目的开发了一种高度控制的结构。(Hollien 2002;Hollien&Hollien 1995;Hollien&Köster 1996)它的重点是超分段分析(话语评估、韵律、频率模式、声音强度、话语质量和其他),以分段分析为辅。这种方法(图6-9)允许相当精确的量化,具有严格、稳定的置信水平

具体来说,其需要将未知说话者(U)的多个话语样本与来自示例录音的那些话语样本对应放置。25个~30个对比样本会被重复播放,并且一次对一个话语参数进行比较,最多可以比较20个参数(潜在地)。

图6-9 听觉法识别话语者身份评估表

如上所述,该过程是一次评估一个参数(例如高音模式),我们对它进行评估,并持续评估下面的参数,直到可以作出判断。然后评估下一个参数,该过程不断重复,直到所有可能的比较都完成。此时将进行一个总体判断。整个过程应在几天的时间段内独立地重复2次或更多次。图6-9还给出了用于记录由引用的听觉识别-说话者识别评估得到的分数的形式。每个参数在从0(样本明确地由两个不同的个体提供)到10(两个样本都由单个人说出)的连续范围上评分。然后将分数相加并转换为百分比,这个数可以被视为是可信度估计。如果总体平均值在0和3之间,则不能进行匹配,并得出结论,样品一定是由两个不同的人产生的。如果数值在7和10之间,则显示了相当的鲁棒匹配。4和6之间的分数通常是中性的,通过这样的结果并不能得出样品是由两个不同的人产生的结论。顺便提及,如果在该过程中使用对比者样品,可信度将大大提高。这种方法已经用于现场研究,其在与机器方法进行对比后显现出了有效性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈