理论教育 区域教育质量监测与教育改进:项目反应理论简介

区域教育质量监测与教育改进:项目反应理论简介

时间:2023-07-26 理论教育 版权反馈
【摘要】:项目反应理论包含了两个基础概念,即潜在特质和项目特征曲线。它们的数学模型称为项目特征函数,即项目反应理论模型。项目反应理论有着众多的测量模型,在测验的编制过程必须考虑选择何种测验模型,以便达成简单、实用的目的。

区域教育质量监测与教育改进:项目反应理论简介

项目反应理论(IRT)包含了两个基础概念,即潜在特质和项目特征曲线。心理学将没有任何迹象表明存在于人的生理或物理结构中,但制约人行为的心理品质,称为潜在特质。心理测量学从量化角度对心理潜在特质的结构和性质数学化,希望通过测量个体在特质变量上的数量(或地位),来预测个体的行为。这个模型被定义为潜在的特质空间,相互独立的潜在特质个数称为空间维度,通常表示为测量应用中,空间维度越低,对测量技术的要求越简单。实际测量中,空间维度越高,测量出的实际能力越准确。IRT的发展从低维模型逐步向多维模型发展。项目反应理论的项目特征曲线(ICC)代表了受试者在项目上正确作答概率对受试者在潜在特质水平上的回归。在单维的认知域测量中,基于0、1记分的项目,多数认为测量数据会形成S形曲线。在多维的潜在特质空间测量时,数据会形成项目特征曲面。它们的数学模型称为项目特征函数(ICF),即项目反应理论模型。[4]

1.项目反应理论的模型

项目反应理论的基础模型有多种,目前最为流行的是丹麦学者Rasch所建立的Rasch模型:pi(θ)=exp(θ-bi)/[1+exp(θ-bi)],b为难度参数,θ为潜在特质。Rasch认为:用同一批项目测量被试,应该从一个线性系统上去评定被试的水平,故除难度参数b外,项目的其他性质都应相同,如果有不同性质项目,作为测验来说,应该被淘汰。Rasch的项目特征曲线除在θ上的位置不同,其形状都是一样的。

基于Rasch模型开发的多侧面Rasch模型具有类似概化理论分析测验质量和变化测验情境优选测验方案的功能。多侧面Rasch模型是包括用于各种测量情境的一系列模型,相比概化理论它具有等距量尺,为测量情境中的各个侧面提供了方法,也为调整侧面差异提供了理论框架,可以提高测量结果的客观性和公平性,所有参数在同一量尺上,具有充分的统计量和参数不变性,便于参数估计;对含有缺失值的不完全设计可以进行较好处理;可以进行不同组的侧面功能差异分析;可以处理各个侧面间的交互作用等等。

2.理论优势

项目反应理论体系的科学性、实用性使得项目反应理论在指导测验编制时具有5个方面的优势。

(1)被试的潜在特质水平量表与项目难度量表具有同一性,这为组卷时有针对性地选择相应难度项目提供了极大便利。

(2)通过被试作答行为模型和个体特征水平及项目参数,可以估计出被试的正确作答概率,使估计个体在测验中的作答真分数成为可能,为调整和修订试卷结构提供数据支撑。

(3)基于项目反应理论提供的项目信息函数和测验信息函数,可以估计各项目及总测验对被试施测的测量误差,为组拼测验提供精确的测量学标准。

(4)项目参数统一于同一系统,不依赖于被试群体,这使得项目反应理论可以运用在不同群体上,为大型题库的建设提供了方便。

(5)被试特质水平参数独立于测验项目的组合,与测验的具体项目和试题数量无关,这使计算机自适应个性化的测验成为可能。

3.实际运用(www.daowen.com)

项目反应理论指导测验实施过程中,与经典测量理论在心理学教育学分析方面是基本相同的,也需要确定测验目标、测验内容、测验能力层次等方面,但在测量技术上有着独到的地方。

(1)测验设计方面。

项目反应理论有着众多的测量模型,在测验的编制过程必须考虑选择何种测验模型,以便达成简单、实用的目的。如何通过实证去检验被试的潜在特质是单维还是多维,通常可以用两种方式来达成:一是直接选择多维模型,可以有效保证精确测定被试潜在特质的各个维度;二是采用分测验法,每个分测验选择一个单一维度模型,最后通过模型拟合形成总测验的模型。单维模型测验在分析时通常采用因素分析法,如果分析结果仅有一个因素,单维性就得到保障。在实际操作时,往往根据数据求出相关矩阵中的第一和第二特征根。有学者认为,两特征根之比在5以上或第一特征根超过20%,即可以认为测验是单维的,不必继续分析下去。否则,需要完成全部的因素分析,根据结果数据重新组合测验,以保证各分测验的单维性。

确定测验模型后,需要根据测验题型选择各条目的记分模型,通常试卷是既包括双值记分题,又包括多值记分题,可以将记分模型统一为多值记分模型,将双值记分题看作是多值记分题的特例。

确定记分模型后,还需要考虑参数模型,如果认为测验中所有项目均无猜测答对的可能,可以选择双参数模型。如果认为测验中所有项目的区分能力是相等的,或测验需要它们相等,可以选择单参数模型。

项目反应理论的模型种类繁多,通常需要测验编制者根据实际需要选择恰当模型,通常教育测量中选用的多为单维双值记分模型和单维多值记分模型,这在数据处理中便于操作,也基本能满足一般性的教育和心理测验的需要。

(2)项目参数估计与项目筛选。

试题质量是测验编制的保障,试题质量需要多角度分析,通常需要从定量和定性两个方面分析。定性分析主要考虑试题的题型、监测内容的科学性、测量所反映的能力层次等,这些要求与经典测量理论的分析要求基本一致。试题的定量分析需要反映出项目质量的各种性能参数,IRT一般分析项目难度、项目区分度和项目猜测度三项指标。通常采用现有的软件就可以解决参数估计的问题。

完成项目参数估计后,需要进行项目质量分析,筛选测验项目。项目筛选的依据是难度指标,即看构成的难度分布与测验所要求的难度分布是否拟合,并以此作为取舍的原则,如果难度水平出现断层,还需要考虑增加测验项目。项目区分度和项目猜测度都是单个项目的取舍指标,一般来说,项目猜测度越小,项目质量越好,因此要保留项目猜测度较小的项目,最大一般不应超过0.25。项目区分度原则上是越高越好,通常低于0.5的可以考虑删除。如果测验编制技术导致总体区分度均不高,也可以保留低于0.5的题目。

(3)测验组卷与测量质量。

测验组卷也需要进行定性和定量分析,定性的要求包括题型比例、测验内容比例、能力层次比例等,与经典测量理论的要求一致。定量方面要求测验具备高信度、高精度、低误差。IRT要求提供一个测验项目的信息函数,信息函数的大小总体上是由项目区分度和猜测度决定的,同时,它也是潜在特质水平的函数。这意味着不同项目有不同的信息量,同一项目在不同特质水平的测验中也有不同的信息量。IRT认为信息函数具有可加性,测验的信息函数越大,测量的标准误差就越小,测验的精度就越高。在组卷后,通过计算测验信息函数对测验质量进行修订,如果对信息量不满意,可以调整测验项目结构来解决。如果整个测验所提供的信息量都不满意,无法通过调整全卷项目组合结构来解决,可以采用加大全卷试题量或者修改题目来实现。[5]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈