澳门金沙网站85058-澳门金沙所有登入网址「首页」 - 文学类专业网站力求原创·干净·绿色

澳门金沙网站85058-澳门金沙所有登入网址「首页」

当前位置: 澳门金沙网站85058 > 社会新闻 > 项目反应理论那么这道试题并没有被透露;反之

项目反应理论那么这道试题并没有被透露;反之

时间:2019-03-12来源:未知 作者:admin点击:
基于项目反应理论和基于经典测量理论的两种序贯监控方法,用来实时监控计算机自适应考试,及时侦测出已泄露试题,并替换或剔除泄露试题,以提高考试的公正性和分数的有效性。本文着重对这两种序贯监控方法在考生整体能力水平随时间有季节性变化或具有连续提

  基于项目反应理论和基于经典测量理论的两种序贯监控方法,用来实时监控计算机自适应考试,及时侦测出已泄露试题,并替换或剔除泄露试题,以提高考试的公正性和分数的有效性。本文着重对这两种序贯监控方法在考生整体能力水平随时间有季节性变化或具有连续提高趋势的情况下进行统计稳健性比较,主要考察这两种监控方法犯第一类统计错误的概率是否变大,是否超出预设的显著性水平。模拟结果表明,基于项目反应理论的序贯监控方法在本文所考虑的情况下比基于经典测量理论的方法具有更好的稳健性。

  关键词:计算机自适应考试;经典测量理论;项目反应理论;试题曝光率;变点问题;序贯监控方法

  计算机自适应考试(Computerized AdaptiveTest, CAT)是一种现代考试形式,它依靠大型题库,采用现代测量理论,根据每个考生不同的能力水平,用计算机自动选择难度恰当且统计性能优良的题目,生成为其量身定做的试题组合,从而实现对考生的高效测量。依靠现代测量理论,计算机自适应考试与传统纸笔测验相比,可使用更少的试题并得到更精确的考生能力估计值。

  由于在一次考试中,计算机组卷所使用的试题均来自同一题库,在该题库被使用一段时间后,其中的一部分题目就有可能被泄露,所以一直以来,计算机自适应考试都面临着试题安全问题,先行参加考试的考生可能会泄露试题信息,使得后续考生成为“受益者”。一旦试题被泄露,相应试题的统计特性将被改变,对于后续的“受益”考生,这些试题难度变低,故“受益”考生的能力值会被高估,这将威胁考试的公正性和分数的有效性。Zhang等在一个模拟研究中指出,当一个720道题的题库中有150道试题被泄露时,考生能力估计值的偏差和误差均方根分别高达1.010和1.226。

  试题曝光率是衡量考试安全性的一个重要指标。通常,一道试题被使用得越频繁(即其曝光率越高),被泄露的可能性就越大。因此,在计算机组卷选题过程中,研究人员就会运用一些试题曝光控制的方法,平衡试题曝光率以加强考试安全性。基于对考试安全性的考虑,题库中一些曝光率较高的试题会被暂时或永久剔除。但是,高曝光率的试题不一定就是被泄露的试题,同时低曝光率的试题也有被泄露的可能。例如,虽然一道试题被很多个考生使用,即曝光率较高,但如果这些考生都没有在考后分享试题,那么这道试题并没有被泄露;反之,另一道试题虽然没有被经常使用,曝光率较低,但恰被用在一个习惯于在考后分享试题的考生的考试中,那么这道题就很可能被泄露。因此曝光率的高低并不能准确判断一道试题是否被泄露。

  另一个考试安全性的指标是测验重叠率,常被用以侦测大规模试题泄露问题。尽管有这两种指标已初步保障考试安全性,但在计算机自适应考试进行过程中,仍需要统计技术对试题统计特性进行实时连续监控,并在试题泄露发生时及时侦测到这些已泄露试题。

  为加强计算机自适应考试的安全性及分数的有效性,并在计算机自适应考试过程中实现对试题的实时连续监控,以尽早侦测出已泄露试题,Zhang和Zhang & Li开发出两种实时连续监控试题的统计序贯监控方法,一种是基于经典测量理论(Classical Testing Theory, CTT),另一种是基于项目反应理论(Item Response Theory, IRT)。两种方法都是在考试过程中通过一系列统计假设检验来判断试题的统计特性是否发生显著变化。本文将从理论框架、模拟研究及研究结果对这两种方法进行详细介绍,并在考生整体能力水平随时间有季节性变化或连续提高趋势的情况下,对这两种方法进行统计稳健性的比较。

  本研究对基于CTT和IRT的两种实时序贯监控方法在考生水平变化的情况下进行了统计稳健性的比较。首先,在标准状况下,根据预设的显著性水平,确定这两种监控方法各自统计检验的临界点;然后再模拟考生整体水平有季节性变化或连续提高趋势的情况下,检查这两种监控方法犯第Ⅰ类统计错误的概率是否变大,是否超出预设的显著性水平。

  在模拟考生整体水平有季节性变化的情况下,基于经典测量理论的序贯监控方法犯第Ⅰ类统计错误的概率能够被有效地控制在预设的显著性水平之下,然而,犯第Ⅰ类统计错误发生前使用该题的考生数量,较考生整体水平没有任何变化的情况而言,显著下降。因此,在这种情况下,该方法的稳健性表现不够理想。在模拟考生整体水平随时间有持续提高趋势的情况下,该方法犯第Ⅰ类统计错误的概率有所上升,特别当移动样本量大于25时,该方法犯第Ⅰ类统计错误的概率显著地超出了预设的显著性水平。然而,结果也显示,第Ⅰ类统计错误发生前使用该题的考生数量,较考生整体水平没有任何变化的情况而言,有显著上升。

  基于项目反应理论的序贯监控方法,在模拟考生整体水平随时间有季节性变化和有持续提高趋势这两种情况下,都表现出了较好的稳健性,即犯第Ⅰ类统计错误的概率被很好地控制在预设的显著性水平之下。评价一个统计检验方法稳健性的最重要的指标是在状况或条件发生变化时,该方法犯第Ⅰ类统计错误的概率能否被很好地控制在预设的显著性水平之下。在这一标准下,基于项目反应理论的序贯监控方法比基于经典测量理论的方法表现得更为稳健。

  至于另一个指标,第Ⅰ类统计错误发生前使用该题的考生数量,在模拟考生整体水平有季节性变化的情况下,基于经典测量理论的序贯监控方法显著低于基于项目反应理论的方法;而在模拟考生整体水平随时间有持续提高趋势的情况下,基于经典测量理论的方法显著高于基于项目反应理论的方法。

  总之,基于项目反应理论的序贯监控方法对本研究所模拟的非标准状况均表现出了较强的适应性及优良的稳健性,而基于经典测量理论的序贯监控方法会在不同程度上受到影响,监测效果相较于考生整体水平没有任何变化的情况而言,有所下降。因此,在本研究所模拟的非标准状况下,基于项目反应理论的序贯监控方法的稳健性表现优于基于经典测量理论的序贯监控方法。返回搜狐,查看更多

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
相关内容
推荐内容