区域教育质量监测与教育改进的试题预试及修订

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：对试题进行预试和质量分析有利于发现试题存在的问题，及时进行修订，保证最终测验结果的有效性，能准确反映监测目标，达到监测预期效果。预试会给正式监测带来风险，容易产生试题泄密的问题，通常选择的预试群体应该是不参加实测的学生群体。泸州市2016年阅读素养监测试题开发预试情况报告（节选）2016年3月29日，项目组将修订后的测试卷在B区抽取两所小学和两所初中进行了再次预试。

对试题进行预试和质量分析有利于发现试题存在的问题，及时进行修订，保证最终测验结果的有效性，能准确反映监测目标，达到监测预期效果。

1.预试的实施

预试的目的是评估试题的质量，确定试题能否反映待测学生群体的真实水平。预试需要解决的问题有六个方面：一是被试对所有的试题是否都能够理解，是否能确定思路如何解决问题；二是试题对被试群体的测试是否合适；三是每个试题是否对参与测验的被试都是公平的，有没有被试是因为有在考查内容领域以外储备的知识和技能而获得较好成绩的情况；四是被试对问题的理解能否正确作答；五是评分设置是否可行；六是评分者的一致性程度是否符合测量学要求，是否存在不同的评分意见。

预试会给正式监测带来风险，容易产生试题泄密的问题，通常选择的预试群体应该是不参加实测的学生群体。预试也会由于选择的对象不同，测试的学生群体背景不同而使试题的评估效果不佳，甚至由于考生的参考动机等影响，预试的试题质量也可能会有一定的偏差，预试成绩更不能作为评估正式测试时学生群体水平的划分标准。

虽然预试有一定的问题，特别是对象选择如果出现偏差，对测试的价值就会带来影响，但预试仍然是教育质量监测不可取代的重要环节。最佳的预试是对被试进行有代表性的抽样，对样本采用相似的试题进行预试，从而在技术上发现试题的质量问题。

预试采用原型题对小样本进行施测，样本大小可以为每题15～20人。每次的规模不小于60人，最佳预试总人数应在300人以上。对于以评估试题质量为目的的预试，每题20人也可以为命题者提供非常有用的信息。如果每次预试后，引入新的试题或修改了测试时间，甚至对试题规范进行了补充和修订，那么在所有工作完成后，对全部试题仍然需要进行预试。

2.预试的关键环节

预试的关键之一在于样本的选择，有效样本能够充分表现预期对试题质量的检验，因此，样本既要有高水平的表现者参与，也要有低水平的表现者参与。不同样本在获得预测试题时，可以采用每相邻等量的样本获得相同的测试题目的抽样方式来进行随机抽测。

预试的另一关键之处是需要给参加预试的学生足够的时间完成所有试题，如果对预试时间限制太死，可能导致学生对部分试题回答时间不够，对试题质量分析和最终确定测试时间带来影响。

3.试题质量分析及修订

试题分析是试题质量控制的主要环节，这个环节需要借用统计测量学的相关技术指标，判断试题可能出现的问题，为命题者提供试题开发的技术判断，帮助测验开发者有效完成组卷和试题的取舍。

预测试数据可以依据经典测量理论和项目反应理论进行测量质量分析。

首先根据收集的预试数据对测验的维度进行分析。

【示例】

泸州市2016年阅读素养监测试题开发预试情况报告（节选）

2016年3月29日，项目组将修订后的测试卷在B区抽取两所小学和两所初中进行了再次预试。现将本次预试情况报告如下：

本次预试工具在A区测试卷的基础上，各命题专家依据结构效度、难度、区分度等参数对部分题目进行了修订。

对测试数据和试题进行综合分析，根据统计分析结果和测量学要求，分别对小学和初中部分题目所属维度进行调整，调整的最终结果如下：

小学第3题原为“访问与检索”维度调整为“整合与解释”维度，第11题原为“反思与评价”维度调整为“整合与解释”维度，第16题原为“反思与评价”维度调整为“整合与解释”维度。调整后，小学卷“整合与解释”维度共有16道题，“整合与解释”维度共有14道题，“反思与评价”维度共有10道题。(www.daowen.com)

初中第4题“整合与解释”维度调整为“整合与解释”维度，第7题“反思与评价”维度调整为“整合与解释”维度，第12题“整合与解释”维度调整为“整合与解释”维度，第21题“整合与解释”维度调整为“整合与解释”维度，第22题“整合与解释”维度调整为“整合与解释”维度，第26题“反思与评价”维度调整为“整合与解释”维度。调整后，初中卷“整合与解释”维度共有16道题，“整合与解释”维度共有13道题，“反思与评价”维度共有11道题。

其次，对试卷进行信效度分析和每个试题的测量学相关指标的计算与分析，寻找存在的问题和需要修订的试题。

【示例】

泸州市2016年阅读素养监测试题开发预试试卷的测量学指标分析

本次预试数据使用SPSS 22.0和Mplus 7.0进行处理。中小学生群文阅读能力监测借鉴学业质量监测工具质量标准，分别从信度、效度、难度、区分度4项测量学指标进行统计分析，其基本结果如下：

表3-13　关于工具的信度

分维度看，信度水平高。从整卷的内部一致性信度来看，小学卷的信度水平为高等，可用于评价和测试，可靠性较高。

表3-14　整卷的结构效度

表3-15　各维度结构效度

表3-16　题目的因子载荷

注：*表示在0.05水平上显著；**表示在0.01水平上显著。后同。

从试卷的结构效度来看，各保留题目对应的能力维度如表3-16所示。因子载荷大于0.2的题目数量为32个，表明这些题目能够从测量学角度解释相应的维度；因子载荷小于0.2的题目数量为6个，表明这些题目尚不能解释相应的维度。不能解释相应维度的题目分别是第1、3、5、19、24、25题，仍可调整。

表3-17　关于工具的难度

整卷难度为“较易”。根据统计分析结果，“易”的题目为7个，占全卷27%；“较易”的题目为13个，占全卷50%；“中等”的题目为5个，占全卷19%；难的题目为1个，占全卷4%。从难度分布看，“难”的题目只有一个，没有“较难”的题目，应适当提高整卷难度。

表3-18　关于工具的区分度

根据统计结果，修订后的小学卷区分度总体上为“好”。其中，题目区分度水平为“很好”的题目18个，占全卷题目的45%；题目区分度水平为“好”的题目12个，占全卷题目的30%；题目区分度水平为“中等”的题目7个，占全卷题目的17.5%；题目区分度水平为“差”的题目3个，占全卷题目的7.5%。从区分度来看，可对“中等”和“差”的题目进行修订。

最后，形成预试试题分析情况说明，对需要进行修改的试题进行标识。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

有关区域教育质量监测与教育改进的文章

区域教育质量监测与教育改进的试题预试及修订

如何撰写2025年公司迟到检讨书

如何撰写2025年军训迟到的检讨书

2025年早晨迟到的反思与总结，怎么写更合适

如何写2025年高中生迟到检讨书

如何撰写2025年教师迟到的检讨书

如何撰写2025年年银行员工迟到检讨书

如何撰写2025年银行上班迟到检讨书

2025年上班迟到开会检讨，该如何写

相关推荐