3.1.1 发展
我们发现,我们的问题连续统一体能有效地构建有助于我们理解各个年龄阶段儿童和青少年互动兴趣、动机和能力的评估工具。在对H.加德纳的理论进行验证,及在多元智能理论环境中对我们的实验问题的有效性进行测试后,我们开始设计针对儿童能力的小组评估。因为希望我们的研究对教育家们起到实际有益的作用,于是我们就开始设计与孩子们在学校经历最为相关的智力评估,即语言学、数学逻辑、空间和人际关系。我们用这种问题连续统一体设计出了一系列有趣、“智能公平”(“intelligence-fair”)(Gardner,1992)、适性发展的问题解决任务,无论种族、语言、能力及环境背景,各个年龄阶段的人都能参与。观察者也是如此,从实践和理论角度,对学生的问题解决策略和创作产品的特征进行观察和记录。每次观察之后,我们都会要求受访者告诉我们哪些学生是“高效、经济、优雅的问题解决者”,并对这些学生的出众行为进行详细描述。我们会把这些行为描述记录下来并加以保存。
对5000多名儿童观察得出的数据(Lori,1997;Maker 1996)同对能力模式各不相同的非常优异和优异的儿童和成年人的一系列研究结果(Maker,1993)都会用于制定可观察行为量表,用于引导幼儿至第八级学生问题解决行为的决定。我们在中学生中也开展了类似的研究,但是样本规模较小(但在不断扩大)(Maker,1994)。
反复评估、修改、反馈和持续的数据收集形成了每个级别(K-2,3-5,6-8,9-12)的一系列活动、标准程序、说明及提供评估一致性的行为量表和提高评判者间信度可靠性的“任务报告”过程。评估在熟悉的课堂环境中进行,由一位老师担任督导人员,资优教育、双语教育或特殊教育方面的专家、其他教师、职前教育工作者、咨询人员,社区成员、管理员及其他专家作为观察人员。我们将学生分为4-5人一组,鼓励他们进行互动,迎接挑战。双语观察人员和教师用学生主要使用的语言对学生进行指导。
基于H.加德纳的多元智能理论(1983,1999)和R.J.斯滕伯格的智力三元论(Triarchic Theory)(1985)的某些能力领域的差异形成了一些练习活动,在这些练习中一个领域的能力不会通过另一个能力领域的“过滤器”进行评估。例如,在一项旨在评估空间合成能力的任务中,语言应该尽可能少,在某种程度上,该任务需要的是创造力而不是分析能力。此时,DISCOVER认识到问题解决活动包括空间艺术能力(见图4)、空间分析能力(见图5)、口语语言能力(见图6 & 7)、书面语言能力(见图8)和人际评估能力。
图4.DISCOVER空间艺术能力评估
图5.DICOVER空间分析能力评估
图6.DISCOVER口语能力评估
图7.一位巴林学生在讲故事
图8.DISCOVER评估中的书面语言示例
3.1.2 有效性和可靠性研究
DISCOVER评估已经运用到美国和国外的各种多元文化人群及经济水平各异的学生中(Lori,1997;Maker,2001)。该项目的效度在于,运用该项目进行能力评估时,得分最高的学生比例在不同民族、种族、语言和经济群体中都非常类似(Maker,1997;Nielson,1994;Sarouphim,1999a)。J.A.肖恩鲍姆(1997)还发现,DISCOVER能有效地对失聪学生进行评估,唯一的变动就是用摄像机录下他们讲故事的过程,而非录音。M.M.弗洛里斯(2001)展示了DISCOVER对患有阿斯伯格综合征(Asperger Syndrome)(译者注:又名亚斯伯格症候群或亚氏保加症,是一种泛自闭症障碍,其重要特征是社交困难,伴随着兴趣狭隘及重复特定行为,但相较于其他泛自闭症障碍,仍相对保有语言及认知发展)学生的效用。
最初,DISCOVER评估项目是以霍华德·加德纳的多元智能理论为基础。只要进行简单的观察,你就会发现H.加德纳列出的所有智能或领域都各不相同,并不存在所谓的“通用智能”。因此,为不同智能设计的评估活动间并没有重要联系。然而,H.加德纳也指出,任何人类活动都需要使用不止一种智能。实际上,当我们努力实现某个目标时,我们都在使用能力宝库。不是每个人都会使用同样的过程或策略去完成同样的任务或目标。R.J.斯滕伯格(1985)也表达了类似的想法,他提出了智能成分(component of intelligence)这一概念,将其推到了更高的理论高度。R.J.斯滕伯格对智能成分进行了讨论,他认为人们使用这种能力对自己的思想进行监控。元认知包括在特定时刻决定使用哪些智能的能力,例如何时需要有创造力、何时需要有批判意识,相当于为思想或人格进行监控或分配任务的“大型”计算机。(www.daowen.com)
在早期的一些案例研究中,我们发现了一个有趣的现象:人们喜欢使用自己的优势智能,即使在与他们的优势毫不相干的任务中也是如此。我们可以用两个例子来说明这一现象。
一位因其在数学方面的造诣而被提名的女士描述了自己解决音乐难题时的心理过程。她阐释了自己如何听取每个音符,如何根据声调间的时间进行逻辑分析,推测接下来的声调。她的解释和我们的观察都表明,她运用了数学逻辑智能的核心能力:长串推理的技巧性处理,以该认知模式发现有前景的想法并制定实施方案。一位爵士音乐家讲述了自己在一项语言学任务中写诗的经历。他不断地重复单词或大声地朗读,把重点放在词汇组合的声音和节奏模式上,而不是意义上。虽然语言智能的核心能力在于对词汇声音、节奏、曲折变化及节拍的敏感性,他却完全忽略了语言智能的其他过程,如意义、规则和功能。他的音乐核心能力,如节奏感、高度的听觉意识及敏感性、听觉想象力,在他的表现中占据主导地位,语言智能则退居次要位置。我想强调的是:各种能力间的关系异常复杂,因此我们不能指望几项简单的相关性研究就能回答我们对测量工具理论效度(theoretical validity)的疑问。
在DISCOVER评估项目的发展过程中,研究小组发现:每种智能都能在不同的任务中观察到。例如,孩子们讲故事或在空间艺术评估中讲解自己搭建的物体时,我们能观察到他们的语言能力;当他们纠结于复杂的七巧板拼图时,我们又能观察到他们的人际和自我认知能力。一名印第安纳瓦霍族男孩本来有能力很快完成复杂的七巧板拼图,但他发现小组里的其他学生因为他的表现而感到非常沮丧。于是他放慢自己的速度,有意比其他学生仅仅提前一点完成拼图任务。另外一些学生则采取幽默的方式来缓解自己和他人的紧张情绪。从学生们口述和书面的故事中,我们也能了解他们对自己和他人的了解程度,即人际和自我认知智能。我最喜爱的故事是一位7岁小朋友写的,故事清楚地说明了她对复杂人际关系的理解。在这个简单的故事中,费利西娅懂得:如果两个与众不同的小孩去上学,其他孩子就会捉弄他们,那两个孩子就会哭泣。她还知道,他们的母亲们一定会尽力解决这个问题。
为了对DISCOVER评估项目的结果进行总结,我们制定了一张优秀问题解决行为量表,目的在于展现这些复杂的关系。这些行为根据不同的智能进行分类,但是每项活动有一列,这样观察者就能将观察到的行为在相应的活动中标注出来。在评估结束的时候,我们就能理解学生们在不同任务中运用各种能力的方法,从而更全面地了解学生的能力和偏好。
2000年,K.萨鲁菲姆以幼儿园及四、五年级的学生为样本开展了一系列研究,研究的大多数结果都印证了多元智能理论。幼儿园(r=0.295,p>0.01)及四、五年级学生(r=0.354,p<0.05)的口语和书面语言活动(两者都是语言智能的测量方法)联系密切。她还发现空间分析与数学活动(r=0.331,p=0.01)也存在重要联系。也许会有人觉得这完全不可能,因为他们觉得空间智能和数学逻辑智能截然不同。然而,基于其他理论的研究则一直表明非语言分析技能与数学逻辑能力存在联系。此外,萨鲁菲姆还意外地发现了空间分析活动与口语实践活动间的显著关联(r=0.257,p<0.01)。由于这些关联性较低,我们推断出重叠的几率很小。但是,显然,这些结果与多元智能理论过分简单化的看法并不一致。A.A.洛里(1997)在100名巴林儿童中开展了DISCOVER评估项目。他发现该评估项目对来自该文化的学生非常适用。在这些儿童中,他发现了讲故事能力与个人智能间的重要联系。对我来说,这种关系更容易解释。我认为,优秀的故事讲述者会采用引人入胜、简单易懂的素材。H.加德纳只列出了一种人际智能的核心能力:留心他人差别的能力(如情绪、性格、动机和意向)。当然,与观众关系密切的人就展现出了这种能力。其他个人智能,包括进入自己情感生活的能力;辨别情感、标明情感和表达情感的能力及使用这些情感理解、引导自己行为的能力。优秀故事讲述者的一个显著特征在于:他们能利用自己的情感信息帮助自己跟他人建立起联系。
萨鲁菲姆在使用DISCOVER评估识别天赋的过程中没有发现性别歧视。她还发现研究人员观察到的学生行为与活动希望测量的能力一致。另外一个重要的发现是:无论评估的等级如何,最常观察到的学生行为会“一直延续到活动结束”,这一现象表明这些活动适用于各个年龄阶段、能力水平各异的学生群体(Sarouphim,1997)。
此时出现了一个挑战——如何设计一个研究方案来评估DISCOVER项目的同时效度(concurrent validity)。因为大多数测试都包括聚合性思维或发散性思维测量项目,无法直接比较。例如,在同时效度的研究中,研究人员通常会同时采用新型测试方法和一套已建立的完善测试方法对同一人群进行评估,以此决定分数的相关性。高度的相关性表明两种测试方法测量的是相同的建构,反之则不同。通常,对于测量不同建构的新型测试方法和测量法,研究人员希望看到较低的相关度;对于测量类似建构的测试法,他们则希望看到较高的相关度。同时,他们也希望两者间的相关度不要太高或太完美,因为如果新的评估方法与已有测试法测量的内容完全相同,它就没有存在的意义了。当然,如果新的评估方法花费更低,测量结果又与采用昂贵的方法获得的结果相同,那就另当别论了。
这里有一个例子可以说明为DISCOVER评估项目设计同时效度研究方案的难度。韦氏智力量表(Wechsler Intelligence Scales)的言语测验(如词汇、信息、理解)有望与我们的口语和书面语言测试高度关联,而操作测验(如积木图案、物体拼配、图片排列)则有望同空间分析和空间艺术任务存在更高的关联性。然而,所谓的韦氏言语分量表(verbal sub-scale)也包括数学测验和记忆测验,因此将分量表直接进行比较异常困难,但是,如果我们加上这样一个事实:所有韦氏测验都只需要聚合性思维,而DISCOVER评估则同时涵盖了聚合性思维和发散性思维,这样一来,预期的关联性就不是那么容易描述了。但是,为了建立一个有效的能力评估方法,研究两者间的关系仍是必要的。
2000年,B.斯蒂文斯在没有修正智商限制范围的情况下,对一所私立学校里55位禀赋优异的学生进行了研究。研究发现,DISCOVER评估项目的空间艺术活动(r=0.388,p<0.01)、书面语言活动(r=0.34,p<0.05)同全量表得分(也称总智商)存在高度相关性。同时,他还发现,空间艺术活动(r=0.27,p<0.05)、书面语言活动(r=0.388,p<0.01)与言语智商联系密切。唯一与操作智商有着重要关联的是空间艺术活动(r=0.369,p<0.01)。由于斯蒂文斯研究中发现的相关度相对较低,因此我们能得出这样的结论:这些测试测量的不是完全相同的东西,但是其中的确有重叠。然而,在对DISCOVER认定为具有天赋的34位墨西哥裔美国幼儿园学生的研究中,英国心理学家S.格里菲思(1997)并未发现韦氏儿童智力量表(WISC III)或韦氏幼儿智力量表(WPPSI)言语或操作智商或全量表得分间存在显著关联。在该案例中,智商得分从88到137不等,平均得分115。造成这些不同的两种可能因素就是:斯蒂文斯研究的是白人儿童,而格里菲思研究的是墨西哥裔美国儿童;斯蒂文斯的研究涵盖了从5岁到11岁的儿童,而格里菲思研究对象都是5岁左右的儿童。正如我之前提到的,法国研究人员发现幼儿的能力差异颇为明显,在小学时期他们的能力越来越趋于相关,而到小学快结束及中学时期能力又开始出现分化。我们的一项研究支持如下观点:不同文化中,能力的关系模式可能各不相同(Maker,2001)。
萨鲁菲姆(2001)研究了雷文推理测验(Raven Progressive Matrices)中257名幼儿园、二年级、四年级和五年级学生得分的关系。她发现,在以纳瓦霍族和墨西哥裔美国学生为主的学生群体中,空间艺术(r=0.58,p<0.01)、空间分析(r=0.39,p<0.01)和数学(r=0.35,p<0.01)的联系最为显著,因为雷文推理测验测量的是非语言逻辑推理能力。雷文推理测验得分同DISCOVER项目中的口述(r=0.39,p<0.01)和书面(r=0.093,n.s.)语言活动评级相关度较低。在另外一项同时效度研究中,萨鲁菲姆(1999b)发现DISCOVER项目中的空间、数学逻辑及语言能力评估结果同课堂教师和一位负责观察学生的研究员独立评估的结果一致。
总的来说,这些同时效度研究的结果都表明:DISCOVER是一项富有前景的新型评估方法;与此同时,我们也需要继续开展研究,找出DISCOVER评估项目与已有测试方法的联系。最重要的是,我们需要确认DISCOVER评估项目为儿童和青少年提供有效能力信息的可靠性,从而让教师和家长帮助孩子不断加强自身优势、迎接挑战。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。