理论教育 32本小说构成的法律语言学语料库

32本小说构成的法律语言学语料库

时间:2023-10-15 理论教育 版权反馈
【摘要】:语料库列表表明,哈代和艾略特早期、中期和晚期的作品都包括在内。因此,与在一个相对较小、包含相隔时间较长的作品的语料库中尝试归因相比,研究她的作品在与体裁相关的问题中的位置更为重要。一般来说,这个语料库中的小说被选择的原因是它们没有版权问题,并可以直接获取。这30个词是文本的高频词汇。实现上述具体要求的软件不需要太多的编程知识,同时,这些语料库文本较为容易获得。

32本小说构成的法律语言学语料库

语料库列表(在表3-1中列出)表明,哈代和艾略特早期、中期和晚期的作品都包括在内。因为哈代在更长的时间里比艾略特创作了更多的作品,所以(这个语料库中)包含哈代的8部作品和艾略特的6部作品。如前所述,这两位作者中的一些作品并不是地区主义风格。因此,我们对体裁进行了四种比较:同一作者、相同体裁的比较;同一作者、体裁转型的比较;不同的作者、相同体裁的比较和不同作者的体裁转型比较。

其他被认为与哈代和艾略特的作品有体裁关系的小说家包括(以远近的接近度顺序):夏洛蒂·勃朗特(Charlotte Brontë)、艾米莉·勃朗特(Emtly Brontë),查尔斯·狄更斯(Charles Dickens),以及和他们有较远体裁关系的简·奥斯汀(Jane Austen)。与奥斯汀的风格联系紧密的是弗朗西丝·伯尼(Frances Burney)的作品。与上述作者体裁关系较远的是以两部作品《哈克贝利·费恩历险记》(Huckleberry Finn)和《汤姆历险记》(Tom Sawyer)为代表的作家马克·吐温(Mark Twain)。最后,(这个语料库中还包含了)一些20世纪的小说,因为它们的体裁风格与(我们所研究的)核心体裁差别较大。

除了伯尼和艾米莉·勃朗特(Emily Brontë)以外,语料库中所有的小说家都至少有2部代表作品。(在语料库中包含)单一作品作者代表的原因,是想尝试进行一种“纯粹的”体裁比较,不受作者身份的限制。艾米莉·勃朗特(Emily Brontë)的作品只有一部(的原因),显然是因为她只写了一本小说。伯尼的情况并不是因为这样,(而是)因为她的相对而言较少的小说之间创作时间间隔较长,(而)这(相对较长的时间间隔)可能对作品的成功归因有一定的影响。因此,(我们认为)与在一个相对较小、包含相隔时间较长的作品的语料库中尝试归因相比,研究她的作品在与体裁相关的问题中的位置更为重要。一般来说,这个语料库中的小说被选择的原因是它们没有版权问题,并可以直接获取。

在抄袭案例中(处理)长文本的经验表明,对高频词的测量是在这种我们假设的情况下进行对比的最有效方式。(See Johnson 1997)该方法具有双重优点,(它不仅)易于理解,而且在软件中的实施更为直截了当。

该软件可以轻松复制,并具有以下功能:

1.删除标点符号、格式以及章标题。

2.删除专有名词和文本中独有的词语。(www.daowen.com)

3.从文本中删除功能词。为此,一个功能词单会被首先编辑,然后程序搜索并移除文本中发现的所有功能词。英语中约有350个常用功能词。所有形式的双重属性的词,如“have”“be”“like”等也被删除。这些词的频率通常很高,以至于保留它们会降低测试的有效性。

4.计算文本中最常见的30个词。因为前一点,这些将是实意词。这30个词是文本的高频词汇。

5.将每个文本的高频词汇与其他文本的高频词汇进行比较。注意每对文本中的公共词条(忽略所有的大写)。

6.根据他们共同的高频词汇的百分比,将每个小说与其他小说进行对比排序。

实现上述具体要求的软件不需要太多的编程知识,同时,这些语料库文本较为容易获得。因此,这里所描述的实验较易实现。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈