教育质量监测：数据解释、正态分布与量尺分数

更新时间：2025-10-15 理论教育 版权反馈

【摘要】：数据解释是读懂监测数据的关键，也是理解监测结果，保证监测结论正确的必备步骤。在其他的数据处理过程中正态分布也可以发挥模型的直观作用，使测量的数据进行数理统计分析更简单和便捷。结合解释目的，量尺分数可以为特定的学生群体的学业成就提供相关信息。

数据解释是读懂监测数据的关键，也是理解监测结果，保证监测结论正确的必备步骤。

1.基本数据

利用数理统计方法对测定数据做出评价。通过去粗取精、去伪存真的方式，确定测定数据的取舍方法，寻找代表测定数据的统计量，由样本的分析和监测结果的判断确定研究对象总体或个体的全部或者部分性质。正确认识和处理好数据，针对误差产生的原因要科学合理地采取消除、补偿或减小等措施。

（1）真实值。

在某一时刻和某一位置或状态下，测量的效应体现出的客观值或实际值。通常包括理论真实值，由理论确定的关系值；约定真实值，由国际制单位所定义的值；相对真实值，由测量标准的级别决定的值。

（2）平均值。

平均值代表一组变量的平均水平或集中趋势，样本测验中大多数测定值靠近平均值。常用的平均值有算术平均值、几何平均值和中位值。

（3）误差。

教育质量监测由于是对精神特性的测量，是通过行为表现或对测验题目反应，并运用推理和判断的方法间接测定的，所以测量误差是必然存在的。任何测量结果都有误差，误差存在于一切测量过程中。

（4）准确度。

由监测分析的随机误差和系统误差决定，用绝对误差或相对误差表示，在一定条件下可以用测量标准来评价分析测量方法的精准度。

（5）有效数字。

测量中测得数字的有效意义，由全部可靠数字和最后一位可疑数字构成。报告的测定结果包含有效数学，对有效数字的位数不能任意增删。四舍五入一般原则：五后非零则进一，五后皆零视奇偶，五前为偶应舍去，五前为奇则进一。

（6）正态分布模型。

在测量工作中，对客观存在的量，无论用何种方式和设备，无论多么精心合理的测量，都会出现误差，而正态分布模型在误差分析和数据处理过程中发挥着重要作用。在测量过程中的偶然误差通常正好符合正态分布，因此对于偶然误差的分析与减小，正态分布模型便是不可或缺的数据处理方式。正态分布这种模型简化了偶然误差的处理过程，有助于更直观地分析和改正数据。在其他的数据处理过程中正态分布也可以发挥模型的直观作用，使测量的数据进行数理统计分析更简单和便捷。

（7）百分位数。

统计学术语，如果将一组数据从小到大排序，并计算相应的累计百分位，则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为：一组n个观测值按数值大小排列。如，处于p%位置的值称第p百分位数。百分位数是用于衡量数据的位置的量度，但它所衡量的不一定是中心位置。百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于无大量重复的数据，第p百分位数将它分为两个部分。大约有p%的数据项的值比第p百分位数小；而大约有（100－p）%的数据项的值比第p百分位数大。

（8）Z分数。

Z分数也叫标准分数（standard score），是以标准差为单位来衡量某一分数与平均数之间的离差情况，是反映个体在团体中相对位置的最好统计量。在统计中，变量值与平均数的离差除以标准差后得到的值就是Z分数。Z分数给出了一组数据中各数值的相对位置，计算过程是对变量数值进行标准化处理的过程。

Z分数具有以下特点：一是它的平均分数为0，标准差为1；二是分数之间等距，可以作加减运算；三是不会改变原始分数的分布形状和分布顺序；四是会出现负值，其数值一般在＋3与－3之间。

（9）T分数。

常态化T分数（normalized T score）：经过常态化的标准分数，其平均数为50，标准差为10，T=10Z+50。T分数：非正态分布的原始分数转换成正态分布，T=T标准差Z+T分数的平均数。

2.量尺分数

量尺分数（scale score）是为了解决不同测验成绩的解释与比较问题，将原始分数进行转换，从参与测试学生群体的总体成就水平中导出。结合解释目的，量尺分数可以为特定的学生群体的学业成就提供相关信息。应用量尺分数取代原始分数，可以避免升学压力下的“分分计较”。

一般人在一项测验或考试的每一个部分答对题目所获得分数的总和，就是受测者或考生在该测验的分数，如某学生高中语文学科考试成绩为80分，以测验的用语来说，这个分数就是原始分数（raw score），是一般人较为熟悉的计分方式。

有时为了提高某个部分或某个科目的重要性，会以加重计分的方式提高分数的比重，如大学联考时某些学校的中文系要求语文学科加重计分50%，换句话说，如果某考生语文科的原始分数是80分，加重计分之后的分数变成120分，加重计分之后的分数已经不是考生原来的实得分数，而是加权分数（weighted score），而且是根据简单的数学公式换算而来的。

不论是原始分数或加权分数，都无法正确反映一个人的学习结果——即学力，也因此无法正确解释同一个人在不同测验的成绩，不同的人在同一测验的成绩之间差异的意义。如某一考生语文测验80分、英文测验70分，从分数来看，该生的语文成绩高于英文成绩，但是，如果大多数考生语文都在90分左右，英文在70分左右，则显然该生的英文“学力”远高于语文“学力”。

为了解决不同测验成绩的解释与比较问题，将原始分数转换为量尺分数是最佳途径。一般测验所采用的量尺分数大概分为两类，一种是将原始分数进行常态化转换，另一种是将原始分数进行转换的同时，利用数学方法将测量误差调整成相当一致。前者为TOFEL、GRE等知名测验所使用，后者为美国学者E.L.Lindquist所倡导，并使用在著名的“爱荷华教育发展测验”（Iowa tests of educational development）中。这两类量尺分数有一个共同的特征，就是原始分数经过转换之后，所分布的分数并不连续，也就是说有些分数会不存在，如托福成绩只听说有人考550分，却从没有听说过有人考551分。由于后者的量尺分数比较精确，因此，测验学者大都主张采用此种量尺分数。(https://www.daowen.com)

测验者答对的题目不同，所得量尺分数会有所不同，如著名的智力测验比西量表平均数是100分，托福的平均分数是500分。国内测验学者则有以采用60分为满分的量尺分数，一方面可以提高成绩的精确度，另一方面可以与现行学校的100分制有所区别。

3.指数表达

指数合成通常出现在调查问卷或量表的使用上。通常经过项目反应理论处理好后，再通过主成分分析法，给确定的成分赋予因子载荷，最后综合形成一个指数。在泸州市三年的监测实践中，我们发现不管是问卷、量表还是学业成就都可以借鉴联合国开发计划署的“人类发展指数”的最新计算方法，结合泸州市本地实际，以监测数据为依据，针对监测需要而开发特定的指数。通过指数来帮助各区域和学校定位学生群体的发展基数，进一步推进学校和区域教育质量的提升。在指数计算中，需要处理以下一些技术问题。

（1）缺失值的处理。

在确定的成分中如果有一个成分为缺失值，另外成分有效，为了保证数据分析有足够的数据量，则需根据其他成分的数据对缺失值进行处理，算出估计值。具体算法为，以缺失值的成分为因变量，其他成分为自变量做回归分析，得出回归系数。将回归系数代入方程，便可以估算出缺失值可能的值。

（2）指数计算。

缺失值处理完成后，将相关变量的值转化为标准值，通常以均值为0，标准差为1的国际值。最后根据样本权重转化指数。

【示例】

泸州市阅读素养指数构成

四年级阅读素养指数合成，根据学生群体的正态分布和等级划分依据，将所有参测学校按最大值和最小值排序，剔除极端值学校后，通过计算，决定以最大值相邻的8所学校和最小值相邻的8所学校分别求算术平均数，即134分和729分，用这两个数据作为今年四年级阅读素养指数的阈值范围。

图5-5　区域阅读素养指数图

4.等级合成

在区域教育质量监测中采用何种形式来报告学生学业成就状况是一个重要的关键环节。国内外在标准参照测验中多采用等级水平的模式作为教育测量和评价的报告方式。水平的划分是以某个年级某个学科对学生要求的一种划分方式，其中最低能力水平的划分是表示学生在该学段学科的最低要求，是学生进入下一个阶段学习的保障。如果学生未能到达该要求，意味着该名学生将无法顺利完成下一阶段的学习任务，因此等级划分就成为被试合格的标志。等级合成需要有清晰的水平描述，每个水平能够真实反映区域内大多数学生应该能够达到的程度。

等级厘定需要根据学生的实际情况和课程科目的最低要求，用具体而清晰的文字进行描述，设置合理的切点分来划定学生在该学科达成的状况，这是质性分析与定量分析的统一。质性方面主要是对学科知识和能力的描述，量化方面是通过分数来判断学生到达的水平程度。等级划分是为了给学生进行能力量尺的鉴定，以区别不同水平的学生。目前国内外采用的方法有很多，但基本上都离不开对测验题目进行判断以及对学生水平进行判断的方法，最常见的是安格夫法和书签法。

（1）安格夫法。

传统的安格夫法是由学科资深教师和专家组成裁判小组，通过对典型学生刚达标的最小能力所能正确回答的测验题目概率进行判断。对每一个题目进行概率分析，将所有题目的概率相加得到一个分数，这个分数就成为一名专家的切点分，通过对所有小组成员的综合，最终形成一个本次测验的学生合格标准分数，如果学生的得分高于这一分数，就认为学生达到了学科规定的标准，否则就认为是不达标。

在实际中，这种方式存在很大的局限性。不同学段的学生经常进行不同测验，这些测验的题目并不一定等值，厘定的水平划分难以在第二年中使用。同一学科在不同时期无法保证水平等级不变。同时，常常要对小组的总分进行平均，这将难以保证数据的一致性和有效性，特别是出现裁判极端值的情况，难以消除这种裁判自身带来的干扰。

随着项目反应理论的应用，安格夫法可以采用IRT的方法来收集和分析数据。采用Rasch模型来建立安格夫法可以更广泛深入地咨询各领域专家的意见，并保证水平厘定的客观科学性。

（2）书签法。

书签法首先使用学生的实际反应数据，应用项目反应理论，将题目位置和个人能力标定在同一个能力量尺上，再根据这些题目的位置将题目由易到难进行排列，编制成为一个题目册。这个预先排号的难度顺序有利于裁判们理解题目的相对难度，从而帮助他们判断哪些题目是典型学生最有可能正确回答的。

书签法要求裁判在两个题目之间放上书签，书签上面的题目是一个刚达某个水平的典型学生应该掌握的，而书签下面的题目就是典型学生未掌握的。对单项选择题而言，这种掌握的定义是一个学生答对该题的概率有0.67，即2/3的反应概率。对于多值计分的结构化题目，掌握意味着一个学生有0.7以上的概率获得其中某个分数点或者分数点以上的得分。这里的0.67是反应概率，也是一个刚达水平线的学生正确回答一个题目的最小概率。

（3）总体划分。

学生水平等级有多种划分方式，其中之一是对总体情况进行分等级划分。由于教育质量监测的学生成绩常常呈现正态分布，为了有效鉴别学生群体的不同能力水平，通常采用“平均分+标准差”的方式来划分学生水平等级。科学划分学生学业成绩等级的方法应该是无论学生考试分数是否出现异常，都能保证各个等级的划分是合理的、科学的。

应用项目反应理论构建阅读素养量表和分量表，根据国内常见的学生水平划分方式，容易导致最终学生成绩的区分情况失真，这主要是没有考虑到学生成绩普遍偏高或偏低的内在特点，没有以学生考试成绩的均值为中心来划分学生成绩等级。

【示例】

泸州市2026年监测等级合成

图5-6　四年级语文等级合成

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

教育质量监测：数据解释、正态分布与量尺分数

区域教育质量监测与教育改进：数据清理及规则

区域教育质量监测与改进

区域教育质量监测与改进效果

区域教育质量监测与改进成果

区域教育质量监测与改进方案

区域教育质量监测与教育改进

专项监测与综合监测助力区域教育质量提升

区域教育质量监测结果及定期监测

相关推荐