澳门金沙网站85058-澳门金沙所有登入网址「首页」 - 文学类专业网站力求原创·干净·绿色

澳门金沙网站85058-澳门金沙所有登入网址「首页」

当前位置: 澳门金沙网站85058 > 社会新闻 > 项目反应理论(3)合于方差分量揣摸及方差分量揣摸变异量的磋商

项目反应理论(3)合于方差分量揣摸及方差分量揣摸变异量的磋商

时间:2019-05-08来源:未知 作者:admin点击:
(2)当锚题数目为中等或较大秤谌时,若群体材干分散差别较大时,采用CC等值效率更佳,若需转换到基准试验量尺上,可先采用CC措施忖度出项目参数,再采用矩忖度法转换到基准试验量尺上。 (2)加快追踪策画(ALD)同时对相邻众个年岁群组举办短期追踪商酌,

  (2)当锚题数目为中等或较大秤谌时,若群体材干分散差别较大时,采用CC等值效率更佳,若需转换到基准试验量尺上,可先采用CC措施忖度出项目参数,再采用矩忖度法转换到基准试验量尺上。

  (2)加快追踪策画(ALD)同时对相邻众个年岁群组举办短期追踪商酌,取得正在衡量上有重叠的众个追踪数据, 对众个数据的相联和归并可修构一条期间跨度较长的拉长弧线,正在大型发扬情绪、终身发扬情绪和教化商酌有普通的运用。加快追踪策画具有横向和纵向商酌的所长,有利于体例寻找庞杂的情绪与动作发扬的外正在和内正在影响身分及效用机制。

  第二,关于不划一值措施获得的等值函数,还可能通过求取等值函数均值的措施获得新的等值函数,以删除等值差错,抬高等值牢固性。另日的模仿商酌可将求取等值函数均值的措施,与CC、LSC和FIPC举办斗劲商酌。

  常用的试验等值是秤谌等值(horizontal equating),是对衡量同专一理特质的众个试验款式举办分数转换,恳求各个试验款式之间具有同质性、等信度、难度左近、对称性、样本稳固性等特征。然则,正在实质运用中,常面对众个试验的难度秤谌有清楚差别,或被评议群众的材干秤谌差别较大等情状。笔直等值(vertical equating)则是针对这种情状的等值,将测试同砚科、统一种情绪特质的区别秤谌试验转换到统一个分数目尺上。它恳求试验具有雷同机合与高信度,但不恳求试验难度相像、被试秤谌一概。IRT与MIRT是告竣笔直等值的合键措施。

  “一年众考”所涉及的笔直等值必要思量数据的纵向性理会以及数据的整合理会。是以通过对纵向数据的措施性商酌,开垦笔直等值的统计理会思绪。结论如下:

  CTT的试验等值措施存正在不少贫苦与部分:起首,CTT确定的转换相干依赖于样本,会随被试样组的区别而蜕变,等值前提的独一性(稳固性)恳求不行餍足,无论哪种措施,都难以确保求出的转换相干是对称的、公允的。其次,CTT等值措施的运用中心都正在被试张望分数等值上,很难妥当处分难度、区别度这类项目参数等值的题目。结尾,更首要的是,纵使正在线性等值的情状下,CTT所认定的应予等值的试验分数间的线性转换相干也是假设不妨存正在的,而不是肯定不妨具有的。IRT区别,正在所选响应模子与实测材料适合优越的情状下,按IRT措施所确定的被试特质与项目参数间的转换相干,即是肯定应当具有的,这是由于特质与项目参数本应具有稳固性,也恰是因为转换相干来自模子的外面本质自身,是以不妨保障全体较好地餍足独一性、公允性、对称性等恳求。此外,因为IRT能同时估出特质与项目参数,分外是项目难度又是直接界说正在特质参数目纲上,于是,就能同时处分特质秤谌与项目参数的等值题目。是以,IRT等值不但正在外面上具有杰出的本质,况且正在适用上具有极强的效力。项目参数等值题目的处分为大型题库修复供应了有力的工夫保障。

  样本量越大,不划一值措施的差别越小。当样本量较大时(日常为3000驾御),不划一值措施的等值精度均较高,且差别很小,试验使命家可灵敏采选等值措施,若对等值样本量没有决心,可参照上述4条采选符合的等值措施。

  本项目通过商酌及模仿数据测验找到一种有外面根基、为广漠考生所接纳的“分数等值”措施,并运用于“一年众考”的高考推行中去,以处分一年众次考查区别难度的考卷分数斗劲及转换。基于此商酌宗旨,发展以下商酌。

  第二,采用IRT外面措施,有用地把握衡量差错,设置题库,入库标题可能采用本商酌中供应的等值措施,修复基于项目响应外面的项目参数等值的考查题库,正在编制试题时选用等值的标题构成试卷,从而告竣陈诉分数的等值。

  通过实证与外面商酌,对基于CTT与IRT的等值措施举办斗劲,获得如下结论。

  (1)基于羼杂身分模子的措施是潜变量空间商酌的主导趋向之一,而模子采选是推断潜变量空间的环节。模子采选合键受种别间的重叠水准、外显变量数目、计分格式和样本量的影响,对群组分类时应凭据群组下的均匀样本量nk采选模子目标。当nk≥40时,首选AIC3,其次是BIC,且nk最好到达50;当nk≤30时,发起选用BIC*或AIC,但无法保障很高的准确率。另外,正在抽样中,尽大概精细地纪录各样生齿学变量,进而思量群组秤谌样本的差别。

  经典衡量外面(CTT)假设材干特质是潜正在而相对牢固的,某材干特质的真正秤谌的数值为真分数T,实测的结果(即张望分数X)会盘绕着真分数随衡量的随机差错(E)而正在某限制内振动,即张望分数是真分数和随机差错分数的线性组合。正在CTT外面框架下组成了信度、效度、难度和区别度这四个目标对试验的质地和特征举办评议,折柳响应试验的牢固性、有用性和试验项宗旨难易水准、区别材干。基于CTT的古板等值措施包含均匀数等值(equi-mean equating)、线性等值(linear equating)、等百分位等值(equi-percentile equating)等。

  (1)从被试人数、题组相依性水准、料到度等方面斗劲3PTM和3PLM用于题组等值的效率,得出思量下场部相依性的题组模子3PTM绝大部门情状下都比未思量相依性的限度独立模子3PLM等值更为准确,绝大部门情状下上风明显。

  针对等值差错的把握、笔直等值和等值的试验模子等题目,本项目拓展了与等值合连的以下根基商酌。

  本商酌正在各等值外面措施的斗劲概括根基上,勾结运用实证商酌与模仿商酌对各等值措施举办斗劲。

  (2)采用6种区别的等值规矩对3PTM对题组试验的等值举办商酌得出,等值系数A取值正在0.5~1.0之间时,SLcrit显露优于其他的等值规矩;A取值正在1.4~2.0之间时,Hcrit的显露最好;SQRcrit正在A取值1.0~1.3之间时显露较好。SREcrit、COScrit、Wcrit占优的情状不众,胜出的限制也没有顺序。

  正在教化和情绪试验周围中,题组是常用的试验修构、试验执行和评分的单位。题组(Testlet)是指共用统一个配景质料的一组标题(Rosenbaum, 1988)。因为统一题组内的众个标题共用一个刺激质料, IRT模子的限度项目独立假设往往难以餍足(Rosenbaum, 1988),显露限度项目依赖。限度项目依赖(Local Item Dependence, LID)是指关于特定材干的被试,其正在某个标题上的作答影响正在其他标题的作答或受其他标题作答情状的影响。

  凭借古人合于措置LID措施的商酌,总结如下:(1)当题组长度较短(4~6个标题)且题组型标题所占比例较小时,可能采用圭臬IRT模子举办数据理会;(2)当题组LID为中等水准且试验蕴涵很大部门互相独立项目时,采用众级计分IRT模子来措置LID也是可能的;(3)当题组存正在较大LID时,该当采用TRT模子和两因子模子。二者各有所长,比拟两因子模子,TRT模子更朴素,但两因子模子参数忖度软件运转愈加浅易和高效。假如试验中存正在限度独立项目,采用TRT模子会获得更为准确的参数忖度值。

  (1)正在各样参数分散状态下,采用GIRM模子举办IRT参数忖度和GT方差分量忖度是可行的;正在被试材干参数为圭臬正态分散时,GIRM模子对被试变异的忖度切实性高于古板GT措施,但正在匀称分散和伽马分散下略差于古板GT措施;正在标题难度参数为偏态分散时,GIRM措施对标题变异忖度的切实性不足古板GT措施。

  1.商酌经典试验外面(CTT)和项目响应外面(IRT)正在大界限考查平分数等值的外面凭借,折柳基于两种试验外面探求合用于大界限考查的分数等值外面,并举办实证斗劲。

  本商酌正在非等组锚试验策画下,凭据古人的模仿与实证商酌,针对常用的0/1计分三参数IRT模子,对同时参数标定(CC)、线性参数转换(LSC)和固定参数标定(FIPC)这3大类等值措施的优欠缺总结概括如下。

  本部门合键探求改进GT方差分量忖度,为各样分数分散状态下衡量差错的忖度及差错开头的把握供应更准确的措施,进而优化等值差错。结论如下:

  另外,固然众半模仿商酌会采用等值结果对真值的修复水准、RMSD等目标,然则等值效率的评议圭臬题目从来是等值商酌中的难点,区别的商酌采用的评议圭臬不齐全一概,确定或者寻找一种评议等值商酌的一概评议圭臬是值得进一步商酌的议题。

  (1)关于追踪商酌的措施,样本量、衡量次数和陆续期间应凭借外面模子和商酌前提确定,当样本量受限,可符合扩大衡量次数和陆续期间消重对样本量的恳求,但样本量和衡量次数应餍足外面模子和统计模子的最低恳求。对数据缺失题目可从商酌策画、商酌经过和缺失道理理会等众方面举办计划和干与。

  第三,关于含题组的试验等值题目,目前仅考查了被试人数、题组相依性以及料到度等影响身分,尚有其他少少影响身分如题组数目、参数忖度差错等,还可进一步探求。关于更为庞杂的众级评分模子,何如与题组模子相勾结,也是值得深远商酌的题目。

  思量题组款式正在实质考查中的一般性和道理,本课题基于古人商酌以及课题前阶段的商酌成就,引进基于题组的IRT三参数题组模子(3 Parameters Testlets Model, 3PTM)。该模子由三参数逻辑斯蒂模子(3 Parameters Logistic Model, 3PLM)出席了与每个题组合连的随机影响参数扩展而来,思量了题组试验中的限度依赖性。

  本商酌正在评述题组试验中措置LID的圭臬IRT措施、众级评分IRT措施、题组随机效应措施和两因子措施的根基上,以参数忖度精度动作规矩,对这4种措置LID措施的效率和合用前提举办了概括并作出相应的评析。

  试验等值是试验商酌中相对脆弱的一个枢纽,很众首要的考查都尚未告竣统计等值。变成这种逆境的道理,皆因等值操作贫苦化。正在参考邦外里合于试验等值的合连文献的根基上,构修出IRT试验等值的流程化操作思绪,包含等值策画、数据网罗、参数忖度、量外化、试验等值5个程序,如下图所示。

  (2)羼杂IRT正在IRT与LCA的根基上承袭和发扬了新的上风:不但可能通过构制分类潜变量发现潜正在的种别,还可能对区别潜正在种别之间的连气儿潜变量举办对照商酌。同时,与古板的DIF理会措施比拟,可能提炼出被试的潜正在分类音讯,而不必事先假定被试的分组音讯。

  (3)合于方差分量忖度及方差分量忖度变异量的商酌结果,岂论何种数据分散状态,Bootstrap措施最优,校正的Bootstrap措施比拟未校正的Bootstrap措施忖度结果更为牢靠。

  2.基于IRT模子正在试验等值中的运用上风,进一步探求IRT模子框架下的等值措施。通过以下子商酌到达宗旨:

  第四,关于笔直等值,另日商酌应纳入更众变量前提举办斗劲商酌,拓展措施的运用。同时,笔直等值现阶段众是正在直接等值(direct equating)的前提下举办的,关于间接等值(indirect equating)下的等值措施尚有待体例斗劲。

  本项目中心对等值中的参数忖度与等值措施举办外面与运用商酌,关于措施的外面寻找,还可正在以下方面举办校正完美:

  项目响应外面(IRT),又称潜正在特质外面,采用非线性模子(如Logistic模子或Samjima品级模子等),设置考生对标题的作答响应(即张望分数)与潜正在特质(即材干)之间的非线性相干。该试验外面有两大基础假设:①对考生所测试的潜正在材干具有单维性;②正在思量了考生的材干之后,考生对各个项宗旨响应是互相独立的(即限度独立性)。项目响应外面最大的特征是,考生的材干忖度不依赖于项宗旨难度参数,即考生的分数不会因为试题的难易而发作高估或低估。基于IRT的等值措施正在数据网罗后凭据标题和数据类型采选符合的IRT模子(如单参数logistic模子、Samjima品级模子)举办IRT参数忖度;然后运用某种措施,如动差措施(moment methods)、特质弧线转换措施(characteristic curve method)、同时校准措施(concurrent calibration)举办IRT量外转换,使参数忖度置于统一个量尺上;结尾举办试验原始分数向量外分数的转换。

  斗劲3PLM与3PTM的参数等值效率,考查3PTM正在题组等值中是否具有卓异性。本商酌给出了诈骗IRT特质弧线法求解等值系数的措施和的确程序。以等值系数忖度值的差错巨细动作权衡圭臬,以Wilcoxon符号秩检查为凭借,举办了Monte Carlo模仿测验。凭据测验结果,得出以下结论:

  (3)整合数据理会(IDA)有以下所长:①抬高完毕论的论证强度和效应的评估力度;②扩大样本的异质性,抬高商酌的外正在效度;③构修普通的情绪评估,抬高对情绪机合的评估力;④扩展发扬商酌的期间段。

  3.针对衡量模子的优化、等值差错的衡量与把握以及试验数据的纵向特征,折柳对衡量的方差分量忖度、羼杂模子和认知诊断模子的运用与纵向数据理会措施举办拓展商酌。

  (1)当锚题数目为中等或较大秤谌时,群体材干分散没有差别或差别很小时,CC和LSC的等值效率都很好,试验使命家可凭据实质必要等值到哪个量尺上来采选区别的措施:当必要等值到基准组被试群体的量尺上时,可选用LSC;当必要等值到基准组和主意组归并后的被试群体的量尺上,应选用CC。

  (3)最常用的材干分数忖度措施有极大似然忖度(MLE)、祈望后验忖度(EAP)和极大后验忖度(MAP)。

  (1)模子采选。商酌者每每凭据数据类型、参数忖度精度和等值差错采选符合的IRT模子举办笔直等值。合键有:用于0/1计分试验的单参数、两参数以及三参数逻辑斯蒂模子,用于众级计分试验的品级响应模子(Graded Response Model)、分部评分模子(Partial Credit Model)、拓广分散评分模子(Generalized Partial Credit Model)、称名响应模子(Nominal Response Model)和评定量外模子(Rating Scale Model)。

  Monte Carlo模仿措施一经正在运用物理、原子能、固体物理、化学、生物、生态学、社会经济学以及经济动作等周围中获得普通运用。分外是正在揣度机上用Monte Carlo模仿措施处分良众外面和运用科知识题,正在很大水准上可能取代很众大型的、难以告竣的庞杂推行或社会动作经过。

  羼杂模子与衡量模子的勾结有助于思量试验中的个别质化差别,使模子更亲切实质的衡量数据。是以,对羼杂模子的外面、措施、运用以及与衡量模子的勾结打开商酌。结论如下:

  (2)Traditional措施忖度正态分散和众项分散数据的方差分量相对较好,忖度二项分散数据必要校正,Jackknife措施切实地忖度了3种分散数据的方差分量,校正的Bootstrap措施和有先验音讯的MCMC措施忖度3种分散数据的方差分量结果较好。

  第一,基于CTT外面,通过原始分转换为圭臬分并运用线性转换的措施举办等值,只消对考查难度做较好的把握,等值结果牢靠,易于被考生接纳。

  (2)参数忖度与标定。通过标定把区别的材干试验转换到统一标准上, 即构修合伙量外。常用的标定措施有同时标定(concurrent calibration)和折柳标定(separate calibration)。

  MIRT是正在IRT和身分理会的根基上发扬起来的一种试验外面。两者措施和程序好似,但仍存正在以下区别:起首,模子采选方面,IRT适合单维数据,MIRT适合众维数据;其次,标定措施拣选方面,数据餍足单维性假设时,同时标定更具上风,一朝数据无法餍足单维性假设,若采用IRT措施,折柳标定优于同时标定,若采用MIRT措施,同时标定章更具上风;第三, 材干忖度措施方面,合于IRT措施的商酌较众,MIRT合连的商酌较少。

  第一,对区别的等值措施的斗劲,另日可思量高考的区别题型(0/1记分、众级记分、羼杂题型、题组题型)和数据分散所造成的区别IRT模子,基于区别模子对等值措施举办更体例的斗劲。

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
相关内容
推荐内容