理论教育 适用性测试方法的制定与准备

适用性测试方法的制定与准备

时间:2023-06-11 理论教育 版权反馈
【摘要】:其次,设计者要依据本次形成性可用性测试目的确定最合适的测试方法。以上三项可用性测试计划结束后,就进入测试准备。

适用性测试方法的制定与准备

(一)测试计划

设计者得到目标文档原型后就要对其进行可用性测试。

首先,他要确定测试目的。因为Convert软件帮助与向导的中文设计目标是向中国用户提供必要的软件操作信息,使他们轻松快速地学会并进行术语格式的转换。模拟的过程正是设计尚未结束阶段。所以测试目的是形成性测试,设计方法是循环设计。而评价话题主要是文档的可操作性与可理解程度。因为这两个可用性评价指标与用户的可用性需求关系最密切,直接影响用户能否顺利完成术语格式的转换。此外,在形成性测试中,发现可用性问题进而改进文档是设计的重点,因此定量和定性的可用性数据都是测试所需要获取的。

其次,设计者要依据本次形成性可用性测试目的确定最合适的测试方法。在De Jong与Schellens(1997)提供的14种可用性测试法中(参见表6-1)能够对文档的操作性进行评估的方法一共有七种,最合适的方法只有表现测试(performance test)和用户语言协议(user protocols)。而这两种方法从评价功能上看,前者只能确认可用性,而后者既可以确认可用性,还可以改进可用性。因为在表现测试中,测试参与者依据文档完成一系列的任务,测试控制者记录下他们完成任务的结果与所需时间。该方法可以测试文档的可用性,但却无法诊断可用性问题。(De Jong&Schellens,1997:420)而在用户语言协议测试中,测试参与者在参照文档完成任务的过程中需出声读出文档,并及时说出自己读文档时的想法,这实际是让参与者在进行有声思维。(De Jong&Schellens,1997:421)该方法的好处是参与者经常会说出他们如何以及为什么在阅读文本中遇到困难,写作者由此就可以获知可用性缺陷的位置以及症结所在,因而可以比较便捷地修改文档。(Schriver,1989:249)此外,用户语言协议还可以发现文档的理解问题与信息查找问题(De Jong&Schellens,1997:421;Schellens&De Jong,1997:486),这符合本次测试预定的评价话题。

再次,设计者需要确定测试的进程。此次可用性测试计划历时一个月[2],主要分为试点研究、三次主要测试和两次修改,每次主要测试结束后还有测试后采访。测试任务则选择普通用户实际使用MultiTerm Convert时通常要完成的两个任务:第一,使用Excel 2003创建术语表;第二,使用MultiTerm Convert 2011转换该表的格式。(参见附录一)

以上三项可用性测试计划结束后,就进入测试准备。

(二)测试准备

测试文档在试点研究和第一次测试时使用的都是MultiTerm Convert的在线中文帮助和软件本身的中文向导界面,在第二次和第三次测试时由于技术原因只能使用经过修改的打印好的中文帮助以及向导界面截屏。

测试参与者主要从大学二年级下学期的科技英语专业和商务英语专业的学生中按照自愿原则征集。选择学生作为测试参与者而不是直接从该款软件的最终用户中挑选代表,除了征集难度与成本的考虑外,主要因为这些学生为英语专业,毕业后有一部分人可能会进入语言服务公司,成为职业译员。他们在大学一年级专门学习了计算机基础课程,掌握了计算机的基本操作技能,并学习了Excel等办公软件的使用。而且这些学生以女生居多。可以说他们是Trados软件未来的潜在使用者。

根据对形成性测试样本人数的研究,每次测试人数在3~5人即可发现一次特定可用性测试中80%~85%的问题,本次测试试点研究和三轮测试分别选择了3名、8名、10名和9名参与者,超出了规定人数,可以确保测试信度

此次测试模拟真实的译员办公环境,在一间办公室的办公桌上摆放了一台联想笔记本电脑(Intel的1.53 GHz双核CPU,1.98G内存,240Gb硬盘,DVD光驱),并在电脑上安装了SDL MultiTerm Convert 2011与Microsoft Excel 2003。为了记录测试参与者的操作过程与有声思维,设计者还准备了录音笔并在电脑中安装了HyperCam 2屏幕记录软件。该软件不仅可以记录屏幕中的所有操作,同时还可以记录下操作时发出的任何声音。由于办公室没有网络环境,所以还配备了无线网络发射器。

(三)测试实施

以上测试准备工作就绪后就进入测试实施阶段。首先是熟悉产品功能阶段。每位测试参与者在开始测试前两天拿到一份中文的产品简介,并被要求花15分钟通读一遍。这份简介介绍了Trados的各种主要功能和优势,但对MultiTerm以及MultiTerm Convert的介绍比较简略。所以测试控制者在开始测试之前又给测试参与者简单介绍了MultiTerm Convert的作用。这些做法主要是为了让测试参与者熟悉软件特点,为其理解在线帮助提供必要的背景信息,但并不涉及具体的操作方法。由于测试参与者人数较多,而且来自不同班级,测试控制者事先指定其中三位参与者为测试协调员,分别负责确保每轮测试的每位参与者都明确自己的测试时间和地点,并能及时赴约测试。如参与者临时不能如约测试,协调员还要同测试控制者及时沟通,重新安排测试时间。

每次只能有一名测试参与者在测试控制者的协助下进行测试,如果多人进行有声思维,相互之间就会产生干扰。参与者到达测试地点后,控制者为其提供水和点心,以减缓其潜在的紧张情绪,并把“测试说明”交给他阅读三分钟。该说明包括测试目的、测试方法、测试步骤与要求和测试任务。(参见附录一)参与者看完说明后如有疑问,可以向控制者请教。

控制者还需要特意向参与者解释测试的目的是“测试该帮助手册与向导界面的实际使用效果”,而绝不是测试参与者本人的理解或软件操作能力,以打消他们在有声思维和操作过程中不必要的顾虑,并同时告知他们也不要刻意为了帮助控制者(他们的老师)而歪曲自己的真实想法,如果中途遇到困难想放弃实验,说出自己的想法后随时可以退出。另外,控制者通常还会把测试要求再次向参与者强调一遍,以确保测试按照预定方式进行。

由于此次测试全程使用有声思维,而人通常是无声思维,因此参与者能否有效地进行有声思维对测试结果影响显著。开始之前,控制者给参与者提供一页与此次测试无直接关联的MultiTerm的中文帮助打印稿,让其先训练一下有声思维[3],即每读一句中文帮助,就立刻说出自己读这句话的想法,无须组织语言。如果参与者忘记说出自己的想法[4],控制者会及时提醒。如果参与者不清楚说什么想法,控制者也会给他做示范。当参与者基本可以适应有声思维,能够及时说出自己的想法时,控制者在征得参与者同意后就可以开始正式测试。打开屏幕记录仪和网络发射器。

测试参与者先根据任务内容在软件界面的帮助中打开相关话题[5],一边阅读一边有声思维,看完后在电脑的桌面上建立Excel表,按要求输入英中对照的三个术语,再打开MultiTerm Convert向导,一边读界面上的说明,一边有声思维,然后再进行操作,操作完成后示意控制者,从最终生成的多个文件中给他指出需要得到的转换好的术语文件。

有研究者在进行操作手册的有声思维实验时先让参与者拿到手册随意通读20分钟,然后才告知他们实际的实验任务,开始正式测试。(Byrne,2005:165)我们认为这种方式与用户实际使用操作手册或软件帮助的方式不符。因为用户通常是有了明确的操作目的或在操作中遇到问题时才会去查看帮助,而不会像读小说一样先把帮助从头到尾通读一遍。所以此次测试控制者先告知参与者需要完成的任务,让他们带着任务去查看帮助中的相关话题,而不是所有话题,并特别提醒他们可以跳过不相关的内容,看完之后再开始操作,操作中遇到问题还可以重新查看帮助。这种使用帮助手册的方式更接近用户的实际使用情形,有助于提高测试的可信度。

开始之前,参与者被告知在测试的过程中除非遇到软硬件故障,否则不能同控制者交流,操作中遇到问题,可以重新查看帮助,但不能在网上(如百度知道)搜索相关操作信息。因为此次测试的目的是检验帮助本身能否指导用户独立完成任务,并在此基础上改进帮助与向导界面,提高产品的可用性。所以要排除其他一切干扰因素,使设计建立在比较客观的依据之上。

控制者在测试过程中坐在参与者左侧较远的地方,以减少对参与者的心理压力,但又能在参与者遇到技术故障时及时上前帮忙。控制者只能在参与者忘记有声思维而默读或仅出声阅读而没有说出自己的想法时才提醒参与者,其余时间一律保持沉默,专心记录参与者在有声思维中遇到的操作与理解等可用性问题,以便测试后及时分析数据,改进文档。

测试结束后,控制者还要采访参与者,进行回顾测试(参见本章第一节中“可用性测试的必要性”),内容有三项:第一,控制者需要核实参与者在有声思维时没有表述清楚的地方;第二,控制者请参与者自我判断操作结果,分析其完成任务的过程;第三,控制者请参与者回答有关对软件、软件帮助与测试本身满意度及建议的问题(参见附录八),收集软件使用与测试体验的反馈。采访的全过程大约5分钟,全程录音,便于事后数据分析。采访结束后,控制者感谢参与者的参与,并嘱咐他不要把测试的细节透露给尚未测试的其他参与者,以免影响后续测试的可信度。参与者离开后,控制者立即将测试数据进行专门保存,恢复最初的软硬件测试环境,迎接下一位参与者。

在主要测试开始前,本次设计还先对三位参与者分别进行了试点测试,目的是“检验测试的方法、素材和过程”,以发现潜在问题,改进方法,避免在主要测试中犯下“代价高昂与尴尬”的错误(Byrne,2006:207)。在此次试点研究中,本地化设计者发现了以下四个问题:

第一,该帮助与向导界面的可用性问题严重,参与者完成任务的几率有可能很低。三位对电脑相对熟悉的男性参与者平均花费14分钟进行全部操作部分的测试,结果无一人成功完成任何一项任务。不熟悉电脑操作的参与者花费的时间很可能会更长。而从可用性的角度看,就这两项任务的复杂程度而言,正常情况下初学者完成全部任务应不超过5分钟,否则时间过长很容易导致初学者放弃阅读帮助,从而使帮助在事实上失去了任何可用性。所以,本次测试决定放弃通常以完成任务的时间来衡量文档可操作性的标准,改为记录成功完成任务的数量与步骤。

第二,有时参与者在进行有声思维时不能立刻判断自己是否理解文档,需要在操作中验证自己最初的理解,所以,控制者在主要测试前应告知参与者遇到这种情况时不要断然说“理解”或“不理解”,可以说出自己的判断,并表明“此处待验证”。

第三,试点测试时一位参与者在操作软件时不慎误点了最小化在屏幕下方的HyperCam,造成屏幕记录仪不当关闭,只记录下操作的声音。此时控制者由于离参与者较远并没有立刻发现该问题,直到操作结束回放时才发现。所以,在每次主要测试开始前,控制者都要提醒参与者,不要触碰屏幕下方的HyperCam软件,并告知他们如何判断HyperCam是否正常工作,如遇异常要及时报告控制者处理,并把该提醒写入测试说明中。控制者在每次操作结束后都会特意简单回放一下HyperCam记录的内容,确保测试过程记录无误。如果因意外没有记录,控制者可以立刻请参与者重新操作一遍。

第四,一位测试参与者建议最好能提供鼠标,方便操作。

针对以上问题,设计者一一作出了改进,确保了后续测试的顺利进行。

(四)第一轮测试结果分析与改进

第一轮测试顺利结束后,设计者先从定量数据入手分析文档与向导的可操作性,再结合定量分析的结果从定性数据中分析文档的具体问题并对文档作出第一次修订。

定量数据主要有两类:第一,完成两项任务的成功率;第二,完成第二项任务每一步骤的成功率。由于文档的整体可用性不高,所以衡量成功率的标准不是完成预定任务的时间,而是操作正确,成功完成了预定任务。第二项任务转换术语格式一共有九个步骤,完成这九个步骤才是成功完成第二项任务,但是从试点研究的结果看,做到这一点也可能比较难。所以设计者决定计算出每一步的成功率,以此来确定用户在使用过程中遇到困难的真正所在。第一次测试的结果如表6-2所示:

表6-2 第一次测试两项任务的成功率

表6-3 第一次测试第二项任务各步骤的成功率

表6-2表明参与第一轮测试的八名参与者无一人成功完成任何一项任务,这与测试后采访的反馈情况基本一致。大多数参与者认为帮助和向导中有不少专业术语,而且找不到相关的解释,因此文档不容易被理解。而且,操作时常陷入困境,却无法从帮助和向导中获得必要信息,甚至有的参与者操作完成了还不知道自己实际上并没有成功完成任何一个任务。任务一与任务二虽然是前后相继的两个任务,成功完成任务一才能成功完成任务二。但是这两个任务在操作上又有一定的独立性。在任务一中没有正确输入术语数据(如少输入一个术语对)一般不会影响执行任务二中的术语转换操作。所以,设计者仍有必要对任务二中各步骤的操作正确率做出统计。

而从表6-3看,设计者发现随着操作步骤的增加,操作的成功率不断下降,到第五步,成功率降为0,这意味着所有进行到第五步的参与者都没有正确操作,导致后面步骤即使操作正确也不可能成功完成该任务。

通过以上的定量分析,设计者初步把问题定位于两处:第一是“准备用于转换的文件”的帮助中对Excel文件的说明部分;第二是“转换文件”的帮助中对第五步骤的说明以及向导界面上对该步骤的说明。下面先分析第一个问题。

从翻译质量来看,这一节的译文(如表6-4所示)并没有什么大问题。但是从可用性上看,主要问题有两个。(见表6-5)第一,文档源的写作是典型的“软件功能视角”,重在介绍MultiTerm Convert能处理哪些版本的Excel文档,而不是(用户)“任务导向视角”,没有从如何帮助用户完成Excel术语数据转换的角度来设计文档。这体现在先介绍软件可以处理的Excel版本类型,以及不同版本的数据保存要求,然后再讲所有版本都必须遵守的术语创建方式。这不符合用户先创建术语后保存的使用方式。从参与者的有声思维中,设计者发现不少人读到Excel中涉及的不同文件格式,都有不同程度的理解困难。他们把主要精力用于理解这些与本次任务并非直接相关的内容,反而忽视了后面创建术语的具体要求。第二,创建术语的第二个前提条件是:“文件首行必须包含各列标题字段中的信息。”这一句对普通用户来说很难理解。在有声思维中,四人表示不理解该句,主要是不理解“各列标题字段”和其中的“信息”,也有人表示不理解“文件首行”,其他四人虽然在有声思维中表示理解该句,但从他们的实际操作中可以看出,他们实际上并没有看懂这句话。

表6-4 帮助中对Excel文件的说明

表6-5 帮助中对Excel文件的说明(英文原文)

(www.daowen.com)

针对以上问题,设计者对目标文档原型分别作出了如下修改(参见附录四):第一,调整内容安排。先介绍创建术语的要求,再明确保存的要求;第二,把创建术语的第二个前提条件重新设计为:“工作表的第一行必须包含各列语言的名称(又称标题字段),如英中术语表的第一行A列必须输入‘English’,B列必须输入‘Chinese’或‘中文’。工作表的第一行还可以根据需要输入其他列数据的类型,如definition,context,note,graphic等。”设计理由是:中文版Trados针对的中文目标用户通常需要使用英中术语,即使使用Trados进行中文与其他语言之间的翻译,以英中术语为例也能够使绝大多数用户理解输入要求,做到举一反三。另一方面,对普通用户而言,双语对照的术语表是最常用的,而包含众多术语信息的复杂术语表则不常用。所以,先介绍最常用的双语对照术语表首行的输入方法,再介绍复杂术语表的首行输入,符合用户的使用特征。

第一次测试发现的第二个主要可用性问题集中于“转换文件”帮助中对第五步的说明以及向导界面上对该步骤的说明。

“转换文件”帮助中第五步指导用户根据他们在第四步所选的文件类型进行不同的操作,用户在第四步可以选择七种不同文件类型,但在第五步只能找到其中三种的操作方法,而对于其余四种则没有任何说明,连最常用的Excel术语表也没有介绍。(参见附录二)所以,本次测试参与者从该帮助中无法获得有关第五步的任何有用操作信息,他们只能借助向导界面(见图6-1和图6-2)。

图6-1 向导界面(中文版)

图6-2 向导界面(英文版)

在第一次测试的八名参与者中,只有三人进行到了这一步,他们普遍对界面中的“列标题字段的类型”与“索引字段”表示不理解,一人对下面的“说明性字段”和“概念ID”也表示不明白。所以,设计者不仅要在帮助中补充有关Excel文件的操作(见表6-6),还要在向导界面中重新设计说明,使用户学会如何设置列标题字段(见图6-3)。

表6-6 有关Excel文件操作的补充说明

图6-3 向导界面关于设置列标题字段的说明

此处的主要设计考虑是:首先,虽然测试参与者对“列标题字段”(column header field)与“索引字段”(index field)等术语的含义不理解,但是没有必要详细解释这些术语的含义,只要用通俗易懂的语言向用户讲清楚应该如何正确操作就基本可以实现文档的可用性。例如,如表6-6所示,在修订“准备用于转换的文件”帮助时设计者已经解释了“标题字段”的含义,用户先读帮助理解了“标题字段”的含义后,该概念就成为他们已知的背景知识,所以设计者在设计第五步时利用该背景知识把“列标题字段”表述为“每一列标题字段”,希望能有助于用户理解。其次,设计者根据对该软件的了解,特意用粗体表示“每一列”以提醒用户注意操作中的关键点。最后,如图6-3所示,除了满足普通用户转换双语或多语术语数据的需求,设计者还尽可能照顾到高级用户转换具有说明性字段等复杂术语数据的需求,对说明性字段的操作也作了说明。但由于界面上方的空间有限以及概念ID适用范围十分有限,所以设计者没有对概念ID作出解释。

针对帮助与向导的可操作性和理解性,第一次修改除了对以上两处主要问题进行改进设计外,设计者根据参与者的有声思维和实际操作录像,还对其他17处(帮助中9处和向导中8处,参见附录四和附录五[6])问题相对集中的词句也进行了修改,希望能够从帮助用户完成术语转换任务的角度提高文档的可用性。例如,帮助中在介绍MultiTerm Convert可以转换的文件类型时列举了七种文件,这七种文件中对普通用户来说最熟悉的就是Excel文件,而其他文件都是相对更专业的文件(如MTW文件、TDB文件和MDB文件),但是帮助却把Excel文件放在了列表的第六位,查找不方便,所以设计者把Excel文件列到第一位,把次常用的电子表格数据库交换文件列于第二位,把不常见的文件类型列在后面。

再比如,在帮助中介绍MultiTerm Convert时有这样一句话:“它可以转换单个输入文件。”在参与测试的八人中有四人表示不理解“单个输入文件”。设计者实际使用软件后知道这是指该软件一次只能转换一个文件而不能批量转换多个文件,所以把该句改为“它一次只能转换一个输入文件”。“输入文件”这个术语虽然仍有可能给某些用户带来理解困难,但是考虑到向导界面第四步中有“输入文件”与“输出文件”等选项,“转换文件”帮助中也已涉及这对概念,所以在此使用“输入文件”不仅与软件界面保持术语一致,还为用户理解后面的帮助提供了必要的背景信息。

(五)第二轮测试结果分析与改进

第一次修改后,设计者又进行了第二次可用性测试,以检验设计效果。此次测试参与者仍是学生志愿者,一共10人,测试结果如表6-7、表6-8所示:

表6-7 第二次测试两项任务的成功率

表6-8 第二次测试第二项任务各步骤的成功率

由表6-7和表6-8可以看出,修改后的文档和向导的可用性明显提高,参与者成功完成任务一和任务二的比率由原先的0%和0%分别上升到60%和10%。完成任务二中各个步骤的成功率除了第一步略有下降外,其余八个步骤都出现上升,而且前四个步骤的成功率都达到了较高的70%。但是原先的两个主要可用性问题似乎仍有提高的余地,特别是第五步骤的成功率依旧不高。我们先分析任务一的情况。

在没能完成任务一的4人中,3个人都忘记了如何使用Excel软件,不知道如何输入术语,甚至不知道什么是“工作簿”和“第一个工作表”,这3个人随后也放弃了对任务二的测试。而第四个人显然也不熟悉Excel软件的特点,在表中第二行输入Cable News Network后,由于该词条延伸到了C列,所以该参与者直接在C列输入“美国有线新闻网”,造成B列实际上没有输入任何术语。因此,他们没能完成任务一并不是因为帮助手册的可用性不高,设计者于是没有对“准备用于转换的文件”帮助进行内容上的改动,只是把其中四处“必须”一词加上了粗体(参见附录六)。

到此为止,设计的难点在于任务二中第五步的可用性仍然不高。10名参与者中有7人进行到这一步,但只有1人操作正确,其余6人虽然看了帮助后都知道设置英语的索引字段(这与第一次测试的情况相比是个明显的进步),但都没有继续设置中文的索引字段。即使是操作正确的参与者在这一步也足足用了5分钟,远远超出正常操作所需的时间。因此,设计者决定在“转换文件”帮助的第五步中一方面把“必须”一词也变为粗体,以进一步引起用户的注意,另一方面在文字例子之中加上Chinese(PRC),并配上设置索引字段的屏幕截图,帮助用户更直观地学习软件操作(Gellevij&Meij,2004)。(如图6-4和图6-5所示)

对于Microsoft Excel文件:

A.指定列标题。设置每一列标题字段的类型(索引字段、说明性字段或概念ID)。

如标题字段是术语语言的名称,则必须在“索引字段”的下拉菜单中选择具体的语言类型,如图6-4和图6-5所示:English(United States),Chinese(PRC),单击“下一步”;

图6-4 英语索引字段屏幕截图

图6-5 汉语索引字段屏幕截图

如标题字段是“术语定义”等其他类型,则在说明性字段下拉菜单中选择其属性,然后单击“下一步”。

B.创建条目结构……

除了以上这个主要修改外,第二次修改对第六步也添加了屏幕截图,而其他地方则只作了个别的调整。(参见附录六和附录七)如把步骤七中的翻译错误“请转换设置汇总”改为“请确认下面的转换设置汇总”。

(六)第三轮测试结果分析与建议

第二次修改结束后,设计者又对9名参与者进行了第三次可用性测试,结果如表6-9、表6-10所示:

表6-9 第三次测试两项任务的成功率

表6-10 第三次测试第二项任务各步骤的成功率

任务一和任务二的成功率都有所提高,特别是任务二的成功率提高幅度很大。任务一数据的提高可能跟文档字体的修改有关。而任务二数据的提高在一定程度上反映出文档可用性的提高。这不仅体现在操作成功率上,还体现在完成关键步骤的时间上。成功完成任务二的4人中有2人在操作第五步时只用了不到3分钟,操作效率与第二次测试相比明显提高。

但设计者对这一结果仍不十分满意,因为9名测试参与者中仍有5人在第五步只设置了英语的索引字段,在测试结束后的采访中,设计者发现,有的参与者没有看到第二个截屏(图6-5),也有的看到了而不知道这两个截屏的关系。这其中可能有参与者自身的原因(如粗心大意等),也可能说明文档在这一步仍有改进的余地。有一位参与者建议,可以把如何设置列标题字段的每一步都详细写出来,如点击“English”,在索引字段的下拉菜单中选择“English(United States)”,然后再点击“Chinese”,再在索引字段的下拉菜单中选择“Chinese(PRC)”等。设计者认为如果给屏幕截图配上文字,或许会使用户更加清楚这两者的先后关系。由于客观条件限制,设计者并没有进行第四次可用性测试,以检验这些不错的设计思路。但是经过三轮的循环设计,第三个版本的帮助文档和向导界面与第一个原型版本相比已经在可用性上有了显著提高。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈