研究的主要目的是理解“作者-体裁”之间的关系,而不是进行作者测试。然而,一部分的体裁测试不可避免地涉及某种类型的文本匹配。在目前的测试中,由于我们根据体裁来定位作者,最简单的测试作者身份的测试是将相同的作者进行匹配。正如我们所看到的,上面给出的简·奥斯汀的例子显示,和《傲慢与偏见》(Pride and Prejudice)的高频词最匹配的是《理智与情感》(Sense and Sensibility),第二接近的是《曼斯菲尔德庄园》(Mansfield Park)。这些是简·奥斯汀在语料库中仅有的三部小说。由于没有其他小说具有比《理智与情感》(Sense and Sensibility)和《傲慢与偏见》(Pride and Prejudice)相比较所得到的更多的高频词汇,我们匹配到了同一个作者。
虽然我们必须在以后(进一步)验定,但这至少表明这样的测试有一定的有效性。下面是同一作者(的作品)在整个语料库匹配的结果。(图中)名为作者测试文本的第一列中呈现了32本小说,之后的第二列是作者姓名。包含最多测试文本中的高频词汇的文本被列在第三列,后面第四列是这个文本的作者姓名。如果第二列中的作者姓名与第四列中的作者姓名相匹配,则被认为是同一个作者。(我们用)布尔值1代表真的(true),0代表错误的(false)。在32部小说中,两部不能匹配,分别是弗朗西丝·伯尼和艾米莉·勃朗特,因为他们(在语料库中的作品)只有一部。因此,我们只能测试30部小说。在这30个小说中,表格显示只有1个小说未能提供相同的作者匹配(表3-1)。
表3-1 32部小说中的相同作者匹配度
续表
因此,我们选取的30部小说中有29部都获得了相同的作者匹配,概率为96.7%。然而,这只是测试的一部分,虽然它在提供最初的布尔数据方面相当有效,但是这绝不意味着(就是)“成功的作者归属测试”,虽然它在提供原始布尔数据时有效。更重要的是,(我们)需要发现这些结果是否揭示了作者与体裁的关系。(www.daowen.com)
作为此任务的第一步,需参考表3-2列出的《弗洛斯河上的磨坊》(Mill on the Floss)的研究结果的一部分。表3-2从测试文本结果表中截取了一段测试文本《弗洛斯河上的磨坊》(Mill on the Floss)的摘录,在表格的左上方列出。我们看到,比如说,它与《亚当·比德》(Adam Bede)相比,有25个共同的高频词,这两本小说都是由乔治·艾略特写的。两个小说高频词汇之间的相关性为0.7,显著性(t)为4.75。然而,艾略特的另一本语料库中包含的小说《撩起的面纱》(Lifted Veil)几乎在表格底部,低于大多数其他作者的共同高频词汇(量)。鉴于《撩起的面纱》(Lifted Veil)不是艾略特的主流体裁,这并不奇怪——事实上,这完全是预期内的。
表3-2 弗洛斯河上的磨坊引文(作者艾略特)
表3-3 摘自揭开面纱的数据(作者艾略特)
当我们来考虑《撩起的面纱》(Lifted Veil)如何与语料库中的其他小说相关时,表3-3中的数据显示:我们看到有相同作者匹配。虽然在后者中没有数据表明两者的高频词汇有显著相关性,但是它和哈代的《忧郁的双眸》(Pair of Blue Eyes)以及《林居人》(Woodlanders)相匹配。(需要)注意的是,《丹尼尔·德龙达》(Daniel Deronda)被认为包含了哥特式元素(Wolstenholme 1993:106),它不是艾略特的主流体裁,就像《撩起的面纱》(Lifted Veil)。然而,在(这个)语料库中(n=32,μ=22.81,σ=2.13,范围:15~25),30个高频词中有15个(或以下)共同高频词属于匹配值低。表3-2表明:《撩起的面纱》(Lifted Veil)不在这个作者的主流体裁之内。表3-3虽然仍显示出了相同作者匹配,即使(匹配关系)较弱,最接近非体裁文本的文本也不在艾略特的主流体裁之内。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。