理论教育 制订转写原则以及词性附码

制订转写原则以及词性附码

时间:2023-05-10 理论教育 版权反馈
【摘要】:潘鸣威刘芹1.制订转写原则与词性附码1.1转写原则在收集完视频音频语料后,项目组以统一的方式对这些语料进行文本转写。为确保转写质量,项目组先讨论制定了统一的转写原则,以此为基础进行试转写,再根据发现的问题修订转写方案,随之试转写样本,并及时校对。这些相关信息均是一项信息占据一行,并在一项信息结束处以反斜杠作为终止符。本研究运用了CLAWS7词性附码器,其码集共有137个词性赋码。

制订转写原则以及词性附码

潘鸣威 刘 芹

1.制订转写原则与词性附码

1.1转写原则

在收集完视频音频语料后,项目组以统一的方式对这些语料进行文本转写。由于本研究需要从多模态的视角对学习者的英语口语交际能力进行分析,因此在转写过程中特别需要注意各种格式的一致性以及对于某些具有口语特色内容的保留。本研究第一步是将影像资料转写为文本,并以文本文件的格式(*.txt)保存。为确保转写质量,项目组先讨论制定了统一的转写原则,以此为基础进行试转写,再根据发现的问题修订转写方案,随之试转写样本,并及时校对。

本研究有三条基本转写原则:(1)忠实还原话语:做到不添加、不减少、不修改;(2)适当添加标点:依据录像内容中停顿时间的长短和句子的语法进行判断加句号、逗号或其他标点符号;(3)认真处理不清晰内容:尽量识别不清晰内容,若实在无法听出某一单词,用[?]表示,供校对后再复听。

在格式上,本研究基本遵循语料库研究中较为常见的COCA格式,每个样本在转写和保存时分为基本信息(即表头信息,header)和对话内容(即口语转写的内容)两大部分。基本信息包括学校属性〈schoollevel〉,学校名称〈school〉,学生专业〈major〉,学生水平〈studentlevel〉,学生姓名〈student〉,学生性别〈male〉或〈female〉,讨论话题〈topic〉等。这些相关信息均是一项信息占据一行,并在一项信息结束处以反斜杠作为终止符。图1列举了某样本文本信息的表头格式。

图1多模态语料库表头信息格式列举

以图1的表头信息为例,本研究对相关的字段作以下定义。第一个字段是“学校属性”(schoollevel)。在上例中,“学校属性”字段为“地方院校”,其参数值设为local。这一字段共存在两个参数,即local(地方院校)和key(重点院校)。在该字段信息结束后,同一行标有信息终止的标记,即〈/schoollevel〉(所有其他的字段行均配有类似的终止标记)。第二个字段为“学校名称”(school)。上例中“学校名称”为“上海理工大学”。该字段即是本研究所收集语料的各所高校英文名称之简称,参数值分别为HIT(哈尔滨工业大学),ECUST(华东理工大学),NJUST(南京理工大学),USST(上海理工大学)和CQUPT(重庆邮电大学)。第三个字段是“学生专业”(major)。上例中,参加讨论的学生均为“焊接专业”(w iring)。该字段的参数值是按照学生讨论前在信息登记表中的相关信息所记录的。由于本研究涵盖的专业较为广泛,因此该字段的参数值较多。第四个字段是“学生水平”(level)。上例中,参加讨论的学生为已经通过大学英语六级考试的学生,因此字段值为1。该字段的参数值共有三个,分别为1(高等水平组),2(中等水平组),3(初等水平组)。第五个字段为“讨论成员姓名及性别”(speakers)。上例中共有三名学生参加了讨论,且均为男性(male)。sp代表说话人(speaker),其后标代表开始讨论后各自发言的顺序。为了检索的方便,并保证对学生隐私的保密,本研究采用只保留各位学生姓名拼音的首字母,并附有其各自性别(男性为male,女性为female)的方式。这样,该字段既表明参加讨论的成员数,也表明该组成员各自的性别。第六个字段是“讨论话题”(topic),该字段描述了讨论的主题。上例的讨论话题为“What Is Your Opinion towards College Students'Having Part-time Jobs?”。

除了以上对转写过程表头信息的规定以外,本研究还对正文部分,即口语内容的转写文本进行了规范。从格式上,对话内容以话轮(turn)为单位,前后标明持有该话轮的学生代号,如〈sp1〉…〈/sp1〉表明这是第一个讲话者的一个话轮中的所有信息。全部讨论内容的开始和终止分别用〈conversation〉和〈/conversation〉标出。图2列举了多模态语料库中某一样本的部分转写文本内容。

图2多模态语料库转写文本列举

此外,本研究还对转写的内容制定了细则,具体如下:(1)按照实际说话人的顺序进行转写。如把第一个发言的学生定义为sp1,第二个发言的学生定义为sp2,以此类推;(2)停顿、迟疑(发出声音)转写符号为er…或em…或en…,格式保持一致;(3)听到数字、货币单位、表示连接的and必须用英语写出。如in 2000,转写为in two thousand,$100转写为one hundred dollars,exciting&interesting转写为exciting and interesting;(4)如遇到拖音的情况,在词尾使用符号(er)表示。例如:I think(er)he er…sometimes(er)is(er)lazy.;(5)对于自我修正(self-repair)的内容,将修正前与修正后的内容用逗号隔开。例如:China has a long history,so the Chinese chara,characters are also very beautiful。

由于口语语料的转写是一项既耗时又需要耗费极大精力方可推进的工作,本研究从初始转写,第一次校对,到修改,第二次校对,每个样本的转写工作都经历了数轮的校对和修改工作,以此来保证本研究前期基础性数据的正确性和可信度

1.2词性附码

由于本研究中需考查学生口语的口语性问题,其测量过程中需要通过对文本内容词性附码(part-of-speech tagging,简称POS tagging)继而提取各个指标的相应频数进行计算,因此对于转写文本的标注基本属于自动标注。

本研究运用了CLAWS7词性附码器,其码集共有137个词性赋码。这一附码工具的准确性已经得到了多方论证,为英语本族语者书面语料进行赋码时,其准确率可达96%至97%(Garside&Sm ith,1997;Jurafsky&Martin,2000)。梁茂成(2006)和王莉、梁茂成(2007)的研究也分别从中国英语学习者的笔语和口语两个方面出发论证了以基于概率的词性赋码器其准确率受学习者书面语和口语语言水平的影响不大,性能较为稳定,且准确率高于95%。因此,本研究运用CLAWS7附码工具所得出的自动附码结果也可较为可信。

图3多模态语料库自动词性附码列举

图3列举了本研究语料样本中经词性自动附码后的结果。该自动附码器将文本文件中的每个单词及标点都通过“*_*”的格式加以附码。下划线前面的星号代表为原有文本中的单词或标点;下划线后面的星号代表该单词或标点在附码集中的词性码。这样,大多需要观察的语言特征就可以通过某些基于单词以及基于正则表达式(regular expression)在语料库检索软件中批量获得。

2.制订语料附码与标注原则

项目组从张德禄(2009)的多模态研究体系出发,结合中国理工科大学生英语口语输出的实际情况,提炼出了一套中国理工科大学生英语口语语料标注体系(图4)。总体上,标注体系划分为言语和非言语两大类。言语包括发音和文字两个方面。“发音”考查音节发音和重音发音情况;“文字”考查遣词造句能力,从用词、句子和语篇三个方面加以标注。非言语包括伴语言和体势语两个方面。伴语言考查句子声调,具体分为升调、降调、平调、升降调和降升调五种。体势语标注的内容主要与身体各部分的活动有关,包括目光交流、手势、表情、头部活动和表述自然性。言语类标注在学生口语输出的转写txt文档上进行错误标注。

图4英语口语非言语交际能力标注体系

2.1言语标注(www.daowen.com)

言语错误标注分为发音和文字两个方面。发音的错误标注为第一维度,以单词为单位标注错误发音,分为两个层次。层次1标注音节发音错误,如important[im_b_ortant](指学生把p误发成b);层次2标注重音发音错误,如interesting[in^teresting](指学生把应该在第一个音节读的重音发在了第二个音节上)。文字的错误标注为第二和第三维度。第二维度以句子内部成分为单位标注用词和语法错误,分为两个层次,主要参考了较为成熟的中国英语专业学习者语料库(CEM)中的写作子库(参见张艳莉、潘鸣威,2008;中国高校外语专业多语种语料库建设和研究项目组,2008)的错误标注归类表,并结合本项目口语语料的实际进行修正。层次1标注单词或词块的使用错误,标注码为[wd],位置在错误后位,如pay attention on[wd];层次2标注语法结构的使用错误,标注码为[gr],位置在错误后位,如Yesterday Igo[gr]shopping w ith…。第三维度以语篇为单位标注衔接错误,分为两个层次。层次1标注个人话语句际中的衔接错误,标注码为[cn];层次2标注多人话轮转化的衔接错误,标注码为[tt]。在错误标注部分,我们以大类标注为主要原则,既可保证标注的准确性和一致性,又能给研究者在此基础上进行更为细致的标注留有足够的空间。下例为言语错误标注文本。

例如:言语错误标注文本

文本显示该组学生共发生发音错误10次,重音错误1次,用词错误19次,语法错误9次,无衔接错误。

2.2非言语标注

本研究对非言语的标注使用了多模态标注工具ELAN(3.8.1版本)软件。图5展现了该标注软件的使用界面,主要分为三个区域。左上角的“视频文件播放区”主要负责媒体文件的播放,研究者可根据需要通过下方一排的按钮来调节播放的速度或是对媒体文件的某个位置定位。研究者在对自己媒体文件做多模态标注之前,需要先定义标注的层(tier),随后软件会将定义好的各层名称自动显示在界面下方的“多模态标注区”最左侧,然后就可在标注区中进行标注了。在具体标注过程中,研究者需要单击某一层标注的起始位置,然后用鼠标拖曳至该标注的终止位置,并在这一段位置中编辑相关的信息,即本研究中某些指标的描述性标注内容。在编辑信息后,需要以CTRL+ENTER的方式进行保存。在所有的标注全部完成后,可在右上角区域的“标注层统计区”中通过下拉式菜单来定位或是简单统计某一标注层的信息。在具体的统计过程中,本研究还可将各标注层的信息导出至其他格式的文件(如EXCEL格式)再进行统计或检索。

本研究对于多模态文本的标注方式作了以下规定。

“口语性”模块中“声调”指标的标注以句子为单位,具体分为升调、降调、平调、升降调和降升调五种。在样本的“声调”层上,对应每个句子所持续的时间轴上做标记,并在标注中用以下相应的标注码标识:升调R,降调F,平调L,升降调RF,降升调FR。“口语化程度”指标则通过Biber(1988)的多特征多维度模型中的第一维度加以测量(限于篇幅,具体测量指标未在图4标出,详见潘鸣威,2012)。

图5 ELAN多模态标注工具的标注界面

“非言语特征”模块中各项指标标注均以说话人发生实际的非言语特征及其与周围环境的互动作为时间轴上标注依据,并主要以描述性的语言(英语)对其表现形式标记出来。“目光交流”指标中主要有以下四种表现形式:(1)与同伴目光交流(eye contact/partner);(2)与摄录设备目光交流(eye contact/camera);(3)与教师目光交流(eye contact/teacher);(4)无效或无目光交流(eye contact/none)。需要指出的是,最后一类表现形式由于种类繁多,很难穷尽,因此在具体操作中本研究项目并未对此作标注,而是通过前三类表现形式来估算出“无效或无目光交流”的相关统计值。“手势与躯干移动”指标的表现形式众多(如circling the right hand for three rounds或slightly tilting the body from side to side等),在标注时先描述,再基于主要关键词检索分类。同样,“表情”指标也使用描述型的标注方式(如smile pleasantly或raise the eyebrow等)。“头部移动”的表现形式主要是点头(nodding)和摇头(shaking)两类,其他的表现形式也均以描述性方式标注。(关于语料库的初期构建原则可参见刘芹、潘鸣威,2010)

多模态文本的标注比语料的转写更为费时费力,需要极大耐心方可完成,并夹杂着较多主观因素的判断。本研究采用以下方法保证多模态文本标注的一致性和准确性:首先由两位研究人员在协商的过程中对多模态语料进行标注,在完成所有标注后由另外两位研究人员分别核查标注的结果,不一致的标注须经协商讨论后达成一致,最后再由一位研究人员对标注和校对的结果做最终校对。这样,通过反复几轮的标注和校对,标注的主观性将大大降低,并且标注人员的内信度(intra-annotator reliability)和间信度(inter-annotator reliability)会随之提高。

参考文献

[1]Biber,D.1988.Variation across Speech and W riting[M].Cambridge:Cambridge University Press.

[2]Garside,R.&Smith,N.1997.A hybrid grammatical tagger:CLAWS4[A].In R.Garside,G.Leech&T.M cEnery(eds.).Corpus Annotation:Linguistic Information from Computer Text Corpora[C].London:Longman,102-121.

[3]Jurafsky,D.&Martin,J.H.2000.Speech and Language Processing:An Introduction to Natural Language Processing,Computational Linguistics and Speech Recognition[M].New Jersey:Prentice Hall.

[4]梁茂成.2006.学习者英语书面语料自动词性附码的信度研究[J].外语教学与研究(4):279-286.

[5]刘芹、潘鸣威.2010.理工科大学生英语口语多模态语料库构建研究[J].现代教育技术(4):69-72.

[6]潘鸣威.2012.中国大学生英语口语中的口语化程度分析[J].西安外国语大学学报(1):52-56.

[7]王莉、梁茂成.2007.学习者口语语料自动词性赋码的信度研究[J].外语教学(4):47-51.

[8]张德禄.2009.多模态话语分析综合理论框架探索[J].中国外语(1):24-30.

[9]中国高校外语专业多语种语料库建设和研究项目组.2008.中国高校外语专业多语种语料库建设和研究——英语语料库[Z].上海:上海外语教育出版社.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈