教育质量监测工具的分析与评价方法

更新时间：2026-01-13 理论教育 版权反馈

【摘要】：监测结束后，需要对试卷进行分析，对命题质量进行评价，这也是教育质量监测中最重要的工作之一。一次完整的监测需要哪些指标来衡量监测工具的质量，如何进行分析呢？高低分组适合在学校内部样本量小的情况下进行分析。表5-52015年泸州市义务教育质量监测语文学科部分试题区分度表相关法。图5-2设置双变量相关性第三步，分析运算结果。

监测结束后，需要对试卷进行分析，对命题质量进行评价，这也是教育质量监测中最重要的工作之一。一次完整的监测需要哪些指标来衡量监测工具的质量，如何进行分析呢？我们从以下几个指标进行讨论。

1.难度

难度分为整卷难度和试题难度。在学科监测中，常常采用经典项目反应理论的难度来定义整卷难度。用“平均分/满分”表示试卷的整卷难度。

试题难度是衡量项目（题目）难易程度的指标，对于被试而言，定量刻画被试作答一个题目所遇到的困难程度，就叫作题目的难度系数，或称为难度值，用字母P表示。

（1）客观题的难度计算。

对采用0-1计分的题目，难度值指对象的通过率，即每道题答对的学生人数除以总人数得到客观题小题难度系数。计算公式为其中，P为题目通过率（难度值），R为答对或通过该题目的人数，N为全体考生数。P值越大，该题难度越小，P值越小，该题难度越大。

为了和人们日常观念一致，可以将其转化未通过该试题的人数百分比为难度指数q，公式为：q=1-P，这样难度指数表示为q越大，试题难度越大，q越小试题难度越小。

对于选择题而言，由于选项的限制容易导致被试进行猜测，导致得分机会增加，特别是试题选项数目越少，猜中概率就越大，为了减小猜测对难度的影响，可以采用公式进行校正。公式为其中，CP为校正后的难度值，P为通过率，K为试题选项数。

【示例】

表5-3　泸州市2015年小学四年级语文学科部分小题难度

续表

在大规模监测中，对每个试题进行通过率计算在规范性和科学性上要弱于高低分组法。高低分组法是将被试依照总分从高到低排序，然后将总分最高的27%和总分最低的27%的被试分别定为高分组和低分组（通常将高低分组取值区间设为总人数的25%～33%，在标准化监测中一般取27%），如泸州市2015年参与监测的四年级学生总数为5 039人，27%的被试就是1 361人，当计算结果为非整数时，可以采用四舍五入为临界观察值，在总分降序排列中，第1 361位被试的分数为88，作为高分组的临界观察值；在总分升序排列中，第1 361位被试的分数为73，作为低分组的临界观察值。采用的计算公式为其中分子PH+PL表示高低分组的通过率之和。

（2）主观题的难度计算。

主观题难度指该试题平均得分率除以该试题的满分，通常表示为：其中X为被试在一个题目上的平均分，W为该题目的满分。这种计算方式适合于计算题、解答题、论述题和问答题等非0-1记分题目。

（3）难度的意义。

难度的设置与测验设计有关，根据被试在群体中的相对位置，来解释个人学业表现的测验方法属于常模参照测验，其主要目的是对被试的能力做出区分，为选拔、升学等提供依据。依据明确界定的学习任务范围及标准来解释个人学业表现的测验方法属于标准参照测验，其主要目的是对被试进行诊断，判断是否达到标准和达到的程度如何。

当每个题目的难度值为0.5时，最能反映出监测的信度，但是这意味着所有被试都是在每个题目上一半全对，一半全错，这就导致每个题目间高度相关，并不利于检测或诊断被试的学习情况。无论何种测验，一般都应该防止被试得满分，因为满分的意义很不明确，我们无法了解被试的最高水平达到何种程度，为了了解被试的最高水平，必须使题目的数量和难度达到一定程度。

标准参照测验中，对试题难度不作统一要求，标准低一些的测验，题目难度普遍低一些，标准要求高的测验，题目难度普遍高一些。选拔性测验，常常和录取率相适应，当录取率为20%时，难度值可以设定为0.2左右，录取率为30%时，难度值可以为0.3左右。如果测验是为了比较，难度控制在0.5左右，此时测验的方差增大，区分度增大，能最大限度地将考生分开。

【示例】

表5-4　四川省学业发展水平测验试题难度标准

选拔性考试可以在中等及以上难度水平分布较多题目（分值）；学业质量监测及水平性考试可以在中等及以下难度水平分布较多题目（分值）。

2.区分度

区分度指题目对被试水平差异加以区分或鉴别的能力，通常用字母D表示。所有测验都需要对被试水平进行区分，构成测验的每一个题目都要反映出对被试的区分功能，体现出高水平被试在测验题目上能得高分，低水平被试只能得低分的差异现象，从而达成测验的目标。题目的区分度是测验性能的一个重要指标，体现的是题目对测验目的是否达到的有效程度。

区分度的分析通常需要以某一标准进行衡量，从而确定被试的实际水平，只有被试水平清晰明了后才能判断出测验题目对被试水平的区分准确与否。区分度的分析方法通常分为外在效标法和内部一致性法，而实际操作中常采用高低分组法和相关法。

（1）高低分组法。

通常在客观性试题分析中，将被试进行高低分组，取27%为分界，采用美国测量专家艾贝尔（L.Ebel）计算公式：D=PH-PL，其中PH和PL分别表示高低分组的通过率，又称为鉴别指数。通常要求D≥0.3以上的题目才符合测验要求。对主观试题采用公式其中分子XH-XL表示高分组总分与低分组总分之差，H为该题目最高分，L为该题目最低分，N为考生总人数的25%。高低分组适合在学校内部样本量小的情况下进行分析。

【示例】

表5-5　2015年泸州市义务教育质量监测语文学科部分试题区分度表

（2）相关法。

在大规模监测中常常采用相关法计算个别试题与监测总分数的相关系数，相关系数越高，试题区分度越高。对0-1记分的题目在SPSS 23.0中采用试题与总分的皮尔逊相关系数法进行分析，对非0-1记分题目采用斯皮尔曼相关系数法进行分析。

【示例】

对0-1记分的题目，在SPSS 23.0中相关法操作步骤：

第一步，选择“分析”菜单中的“相关”菜单，点击“双变量”命令。

图5-1　“分析”菜单

第二步，在弹出的窗口中，首先将需要分析的题目和试卷总分添加到变量框中，然后在下方的“相关系数”选项中选中“皮尔逊”相关系数法，最后点击“确定”即可。

图5-2　设置双变量相关性

第三步，分析运算结果。下列结果表明，试题C4SO011与语文试卷总分的相关系数为0.404**。**表示在0.01级别（双尾），相关性显著。故该题与语文试卷总分相关性高。

表5-6　试题C4SO011与语文试卷总分的相关性

对非0-1记分的题目，相关法操作步骤与上述相似，区别在第二步中对相关系数的选择上，这类题目需要选择的是“斯皮尔曼”相关系数法，最终结果如下：

第36（1）题的相关系数为0.596**，表示该题与语文试卷总分在0.01级别（双尾），相关性显著，是高度相关的。

表5-7　试题36（1）与语文试卷总分的相关性

从检验结果看，两个题目的Sig＜0.01，达到显著性水平，所以这两个题目的区分度较好。

（3）区分度的意义。

区分度和难度都是一种相对指标，较难的试题对水平高的考生区分度高，较易试题对水平低的考生区分度高，中等难度试题对中等水平考生区分度高。在测验中，为了与人的心理趋向相吻合，特别难的题和特别容易的题较少，中等题要多一些，即呈正态分布。所有试题的平均难度近似为0.5为最佳。

艾贝尔（L.Ebel）的研究表明，各题目的区分度D值的平均数越高，测验的信度就越高。信度随着区分度的提高而增加，而且信度的增加程度要超过区分度的增长。提高区分度能使测验的信度达到理想值。区分度根据测验的目的和性质不同数据会有差异，常模参照监测对区分度要求高，标准参照监测对区分度要求低。

【示例】

表5-8　四川省学业发展水平试题区分度水平标准表

学业发展水平测验的所有题目区分度的分布应与测验目的和性质相匹配。选拔性考试的题目的区分度应高于学业质量监测和水平性考试。

3.信度

测验的信度是指测验结果的可靠性、一致性或稳定性，在项目分析中，可作为同质性检验指标之一。

（1）同质性信度。

同质性信度也称内部一致性信度，是指测验内部所有项目的一致性。常用克隆巴赫（信度）系数（Cronbach’s α）来衡量测验的可靠性。在SPSS软件中，通过分析可以得到相关的数据量表。

【示例】

泸州市2015年小学四年级语文学科监测的信度系数为0.89。

表5-9　可靠性统计

表5-10　Nunnally（1967）对信度系数的解释表

表5-11　四川省学业发展水平测验整体内部一致性信度水平标准表(https://www.daowen.com)

克隆巴赫（信度）系数（α）是衡量一组试题测量结果的可靠程度，与试题数和试题间相关系数的平均值有关，通常试题数增加，α增加；试题间相关系数的平均值高，α就高。因此α可以说测量的是单一的心理结构。

当α较低时，说明试题间的相关系数平均值较低，这可能表示数据存在多维结构，这时，需要进行因子分析，确定数据维度，然后对同一维度的试题计算α的值。

【示例】

表5-12　四川省学业发展水平测验各维度内部一致性信度水平标准

（2）评分者信度。

对于分级记分类试题，由于不同评分者对同一答案的评分结果可能存在着一定的差异，甚至有时会出现较大的差异，这种差异主要来源于评分者的差异。通常用斯皮尔曼等级相关方法计算信度，如果同一试题超过三人以上进行评分，则需要采用肯德尔（Kendall）和谐系数来表示信度。当出现评分者信度很低时，需要分析原因，及时弥补评分误差。

4.效度

效度是指通过测验或量表实际能测出需要测量的特性的程度。如果一次测量就能测出所需要测量的特性，这个测验或量表就是有效的。目前验证测验效度的方法有多种，通常使用的是弗兰士（French）和米希贝尔（Mich⁃bel）提出的分类法，该方法将效度分为内容效度、结构效度和效标效度三种。

（1）内容效度。

内容效度是指测验的内容和课程标准规定的一致程度，测验题目对学生认知、能力、思想、方法等方面的要求与课程标准规定的一致程度。如小学四年级学生语文学科监测框架的制定，就是要涵盖小学四年级课程标准的全部内容，如果题目覆盖完全，我们就可以说测验具有较高的内容效度。

内容效度通常要求到达两个方面的要求：一是测验内容范围明确。对学业发展水平测验而言，试题符合课程标准，不能超过所监测的学段。二是试题应是已界定的内容范围的代表性样本，它应该覆盖所监测的内容和能力，并使各部分题目所占比例适当。

通常内容效度的确定需要专家对试题和所涉及的范围进行符合性判断，即采用定性评价的方式进行，也可以采用复本法和再测法等定量方式计算相关系数来确定内容效度。内容效度更符合标准参照监测的要求，即确定被试对一定范围内的知识技能掌握程度。

好的内容效度，需要遵循一定的监测工具研发流程，首先设计监测框架，然后编制命题双向细目表，根据双向细目表，由专家和教师配合完成命题和试卷的组合。

内容效度主要依靠主观性的评价判断，没有数量指标，无法获得精确的定量数据。因此效度分析还需要依靠其他分析进行补充完善。

（2）结构效度。

结构效度是根据心理学和社会学发展而来的一种学术理论假设，是用来解释和预测个人或团体的行为表现。它指测验结果能够解释心理学或社会学理论上的某种结构或特质的程度。在监测实施过程中，对监测目的和性质利用心理学或社会学结构理论建立测验模型，根据模型编制测验框架和测验试题，采集测验结果，并利用相关分析、因素分析等方法核查测验结果与模型的一致性。所以结构效度一般不能简单地用数字来描述其高低，只能用逻辑推论的方法进行确认。

结构效度和内容效度的使用和判断是有区别的，内容效度主要用于学科测验，在判断大小时，可以直接和课程标准或考试大纲相比较；结构效度主要用于心理学测验等方面，在判断大小时，要与监测模型的结构相比较，因此结构效度的确定比内容效度要困难得多。

结构效度的分析方法是根据潜在特质理论来确定测验试题的有效程度，目前广泛使用的是因素分析法，这是研究结构效度最佳的实证方法。因素分析法可以分为探索性因素分析（explorator factor analysis，简称EFA）与验证性因素分析（confirmatory factor analysis，简称CFA）。探索性因素分析是建立量表或问卷的结构效度；验证性因素分析是检验此结构效度的适切性与真实性。

探索性因素分析可以通过SPSS软件来进行，方法是用因素分析法。该方法是从一批试题中抽出的共同因素和每个试题进行相关分析，得到因素载荷，这些因素载荷就是试题测量学上质量状况的重要指标。

具体操作步骤如下：

第一步，打开SPSS的“分析”菜单，选择“降维”，并点击“因子”，见下图。

图5-3　SPSS软件“分析”菜单

第二步，选取所有试题进行分析。对描述、提取、旋转三个选项设置相关参数。

图5-4　“因子分析”设置窗口

第三步，对运算结果进行分析，分析示例如下。

【示例】

首先，判断是否需要进行因子分析，并以KMO检验及球形检验来判断原始变量是否适合因子分析，对可以进行因子分析的进行因子数提取和考查可解释性。

表5-13　KMO值作为检验因子分析是否适用的指标值表

表5-14　泸州市2015年四年级语文学业成绩的KMO检验及球形检验结果表

KMO值为0.944，适合作因子分析。球形检验近似卡方值为50 340.116，显著性为0.000，小于0.001，达到显著水平，代表抽样总体的相关矩阵间存在共同因素，适合进行因素分析。

其次，进行总方差分析和特征值分析。本次测验的第一特征值为8.414与第二个特征值2.406之比大于3，即第一特征值远大于第二特征值，因此可以得出本次测验只需要提取一个主成分就可以对原变量的信息描述有显著作用。

验证性因素分析常常会事先确定一个正确的因素模型，在探索性因素分析形成的结构基础上，对工具的若干不同潜在因素用不同样本对象加以验证，确定工具所包含的各因素是否与最初探究的结构相同。即在各因素和题目均已固定的基础上，探究监测工具的因素结构模型与监测结果采集的数据的契合程度。最终分析出监测指标是否可以有效的作为监测的潜在特质所代表的测量变量。这种分析模型通常被归类为结构方程模型中，是反映和解释潜在变量的，是和线性方程相连接的。验证性因素分析属于结构方程模型（structural equation model，SEM）的一种次模型，为SEM分析的一种特殊应用。能用SEM进行分析的软件非常多，如LISREL、EQS、AMOS、Mplus等，以下介绍用Mplus7.0进行验证性因素分析的操作。

【示例】

利用Mplus7.0对2015年四年级语文进行验证性因素分析操作。

（1）形成数据文件

验证性分析需要对题目数据进行转换，形成连续变量，编制为数据文件。

（2）编写Mplus7.0的操作代码

（3）运算和分析运算结果

部分结果如下所示：

*The chi-square value for MLM，MLMV，MLR，ULSMV，WLSM and WLSMV cannot be used for chi-square difference testing in the regular way.MLM，MLR and WLSM chi-square difference testing is described on the Mplus website.MLMV，WLSMV，and ULSMV difference testing is done using the DIF⁃FTEST option.

Chi-Square Test of Model Fit for the Baseline Model

表5-15　验证性因素分析模型适配度判断表

因子载荷越大，表示题目对于测量所属的维度越重要。最后分析拟合指标，要求卡方值越小拟合越好，CFI、TLI一般在0～1之间，越大越好，大于0.9较好，RMSEA、SRMR越小越好。RMSEA低于0.1表示较好的拟合。标准化的因子载荷（Estimate）应当在0.2以上。对因子载荷低的题目应当删除。

表5-16　整卷指标

表5-17　各题目和维度指标

经过专家讨论，如果发现该试题的确没有满足测试要求，无法测试出学生的能力水平和知识水平，可以在数据分析前将其删除。

（3）效标效度。

通过对测验结果与作为效标的另一独立测验结果之间的一致性程度的相关系数的值来表示效标关联效度，也称实证效度。通常采用命中率、显著差异法和相关法三种方法进行估计。

命中率是对测验合格者进行筛选的方法，包括总命中率、正命中率和负命中率。如果总命中率高说明测验的效度高，说明在区别合格和不合格方面是有效的。正命中率是测验选出的认知合格者的比例，负命中率是测验淘汰的人中不合格者所占比例。正命中率只关心被选中群体的合格数，不关心淘汰群体中是否有合格者，如果需要测验出所有的合格者，在验证时就采用负命中率。在传统选拔性监测中，常常会考虑被监测者中符合选拔条件的合格者有多少，而不关心被淘汰的人员中是否有能达到合格的人员，这种情况的测验效度就应该用正命中率。而在现代选拔性的监测中，我们要尽可能地将符合条件的人员筛选出来，验证这种监测的效度就应该用负命中率。

显著差异法是根据效标测量将被试分为两个极端组，即高低组或好坏组，检验这两组测验分数是否具有统计学上的差异显著性。如表现为显著性，说明测验有较高的效度。对高低分组，如果监测的情况表明两组数据的差异概率小于或等于事先规定的水平，就可以认为这种差异是小概率事件，即两者有显著差异。显著水平常用以下两种水平：一是把概率小于或等于0.05的差异称为小概率事件；另一种是把概率小于或等于0.01的随机事件称为小概率事件。

相关法是通过对测验结果与效标测量分数的相关系数来衡量效度的大小，最常见的是顺序量表的相关系数适用的变量方法。对排序数据而言，两个变量至少有一个是顺序变量，计算前两个变量必须按大小排列，0-1记分的试题通常用皮尔逊相关系数，非0-1记分的试题用斯皮尔曼相关系数。相关系数是有一个共同量表的统计量，相关程度依据相关系数的大小进行判断，相关方式一般依据系数的符号。“+”表示两个变量具有某种程度一致变化的趋势，“-”表示两个变量具有某种程度相反变化的趋势。学科监测要求效度在0.60～0.70之间才符合基本要求。

【示例】

某班级平时成绩与预试监测的效标效度

表5-18　总分的相关性

**在0.01级别（双尾），相关性显著。
从预试总分与平时成绩的相关系数0.984**，可以看出，本次预试的总分与平时成绩高度相关，说明预试试卷能够有效判断学生的学业成就状况。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

教育质量监测工具的分析与评价方法

国际学生评价项目—教育质量监测与改进

区域教育质量监测与改进：表现性监测工具编制要

大坝安全监测与评价方法

表现性监测工具类型：深入探究区域教育质量监测

教育质量监测调查问卷与量表分析

区域教育质量监测结果及定期监测

区域教育质量监测与改进效果

区域教育质量监测与改进

相关推荐