越庸俗越自然,越堕落越人性
‘考试技术’ 分类下的文章
十二 09

项目反应理论

2009年十二月9日,星期三,下午 3:03 | 分类:考试技术 | 给我留言(1 条留言) |

项目反应理论(item response theory)也称潜在特质理论或潜在特质模型,是一种现代心理测量理论,其意义在于可以指导项目筛选和测验编制。项目反应理论假设被试有一种“潜在特质”,潜在特质是在观察分析测验反应基础上提出的一种统计构想,在测验中,潜在特质一般是指潜在的能力,并经常用测验总分作为这种潜力的估算。项目反应理论认为被试在测验项目的反应和成绩与他们的潜在特质有特殊的关系。通过项目反应理论建立的项目参数具有恒久性的特点,意味着不同测量量表的分数可以统一。项目反应理论通过项目反应曲线综合各种项目分析的资料,使我们综合直观地看出项目难度、鉴别度等项目分析的特征,从而起到指导项目筛选和编制测验比较分数等作用。

(阅读更多精彩内容...)
十二 09

考试发展的新方向:计算机化自适应性考试

2009年十二月9日,星期三,下午 3:03 | 分类:考试技术 | 给我留言 |

主持“托福”考试和GRE考试的美国教育测验服务中心(ETS)已经宣布,将在1998年7月在全世界大部分地区用计算机化自适应性的“托福”考试取代现行的纸笔考试,并在2001年在全球完全取消纸笔“托福”考试。ETS已于1993年推出了计算机化的GRE考试,于1994年推出了自适应性的GRE考试。今天,ETS已经在美国本土取消了纸笔的GRE考试。负责承担在中国实施GRE和“托福”考试的国家教委考试中心正在加紧安装、调试设备,首次计算机化的、自适应性的GRE有望于年内在中国举行,首次计算机化的“托福”考试有望明年在中国举行。 当“托福”和GRE考试以纸笔方式进行时,考生在美国本土每年只有五次参加考试的机会,在中国每年只有两次参加考试的机会。实现计算机化的考试以后,原则上考生在一年365天的每一天都可以参加考试。以往,考生在参加完考试以后,至少一个月以后才能拿到考试成绩。实现计算机化的考试以后,考生在考试之后立即可以拿到成绩。这些固然是计算机化考试的优点,但实现计算机化自适应性考试的主要意义并不在这里,而在于新的考试方式可以大大地提高考试的可靠性。   跳出普洛克路斯忒斯之床     在希腊神话中有一个强盗叫作普洛克路斯忒斯(Procrustes),他住在埃莱夫西斯附近。他设有一张铁床,强迫被捉到的人躺在床上,把身材矮小的拉长,把身材高大的截短,使他们的身体与铁床的长短相等。     工业化是一个以牺牲个性为代价来追求效率的时代。与私塾式的传统教育相比,伴随工业化过程而发展起来的现代学校教育大大地提高了教育的效率。为此,也付出了巨大的代价——教育中人的个性的丧失。现代的学校教育恰象普洛克路斯忒斯的铁床:不管人的能力有不同特点,将快的拉慢,将慢的拉快。在过去的岁月里,这或许是为了获得效率而不得不付的代价。但是,随着计算机技术神话般的迅速发展,兼有效率和个性的教育已经成为可能。 伴随教育而发展的考试也是如此。传统的团体性考试是工业化时代的产物,它假设参加考试的考生都具有相近的水平,假设一个题目或一项考试对全体考生提供的评价信息是一样的。由于考生的水平不可能完全一样,这一假设并不符合实际。事实上,好的考试总是针对一定的对象而言。一个对于三年级学生来说很好的考试,对于一年级和五年级的学生来说则可能完全无效,或者说,一项考试在应用于三年级学生时可以提供许多关于学生水平的评价信息,但是在应用于一年级或五年级学生时则几乎提供不了多少有用的评价信息。对于某一水平的考生来说是很好的一项考试,对于另一水平的考生来说可能并不是一项好的考试。就一份包含100道题目的试卷而言,对于那些水平较高的考生来说,其中许多较容易的题目形同虚设;对于那些水平较低的考生来说,其中许多难题的作用也非常有限。事实上,能够真正反映出一个考生能力的可能只有与该考生水平相当的几十道题。就是说,在100道题中真正有效的仅仅有几十道题。如果在一次考试中一位考生所回答的问题都是与他的水平相适应的,都是有效的,就可以大大提高评价的准确性。能否在考试中使每个考生所回答的所有问题都与他的水平相当呢?以往,这一要求近乎异想天开,但计算机技术的发展使这种个性化的考试成为可能。     “裁缝测验”     早在五十年代,“程序教学”和“机器教学”的理论就被提出,但是,囿于当时的技术条件,这些理论未能得到广泛地实践。与此相仿,由于认识到经典测验理论的局限,心理测量学家们很早就开始研究新的测验理论并试图编制个别化的测验。同样是由于技术条件的局限,在很长的时间之中这些研究成果未能得到充分的实践。八十年代以后,随着计算机技术的发展,基于计算机之上的自适应性考试(Adaptive Test )应运而生。自适应性考试是指在考试施测过程中根据考生特点调节试题数量和难度的考试。因此,自适应性考试又因其“量体裁衣”的特点而被称为“裁缝测验”(Tailored Test )。     借助计算机实现的自适应性考试的具体过程是:先给考生出一道中等难度的题目。如果他答对了,就随机给他一道稍微难一点的题目;如果他答错了,就随机给他一道稍微容易一点的题目。我们预先设定一个可以接受的误差范围,当他回答的题目所累计的信息量可以使误差足够小时,考试即告结束。     自适应考试流程图1    自适应考试流程图2     自适应考试流程图3      自适应性考试的理论基础是现代测验理论。根据现代测验理论,一道题目对于不同水平的考生所提供的信息量不同。自适应性考试需要根据考生水平来确定题目数量和难度。在考试进行过程中,需要不断地估计考生的能力,并根据估计得到的关于考生能力水平的参数来计算每道题目所提供的信息量,并估计考试的测量误差幅度。对考生能力水平的估计是随着考试进行过程而不断变化的,关于信息量和测量误差的估计也是不断变化的。因此,整个考试是一个计算机系统与考生不断相互作用的动态过程。  题库      为了实现计算机化的自适应性考试,必须具备一个较大规模的题库。所谓题库(Item Bank)是指按一定原则组织起来的一批试题,这些试题应具有关于题目性质和题目质量方面的参数。例如,该题目考察的知识内容、能力种类、难易度、区分度,等等。尽管各个考生所回答的试题是不一样的,但每位考生所完成的试卷结构应该是基本相同的。例如,在一个物理考试中,每一位考生所回答的问题都应该包含力学、光学、电磁学等内容,都应该包含对概念理解、计算和应用能力的考察。这样,题库首先需要根据知识内容、能力种类被划分为许多题目单元。在自适应性考试的过程中需要根据考生的答题情况来决定继续测试的题目的难度并随机抽取题目。因此,这些分别属于不同知识内容和能力种类的题目单元又要被划分为不同的难度等级,只有每一等级都具有一定数量的题目时,才可能从中随机抽取题目。考虑到试题的保密性和公平性,通常,一道试题一旦被选中,在相当一个时期内它就应该被“冻结”。不难理解,为了使计算机化的自适应性考试得以顺利进行,题库必须具有相当的规模。编制具有相当规模的题库,使题库中的每道题目都具备知识内容、能力种类、难易度、区分度等方面的参数,这是实现计算机化自适应性考试的难点之一。   等值      考试的目的是为了对考生的水平作出客观、公正的评价。考试的分数经常成为入学、就业决策的依据。在计算机化自适应性考试中,不同的考生将回答不同数量、不同内容的一组试题。为了保证考试的客观性和公平性,必须在这些各个不同的试卷之间建立起可比性,必须将考生的成绩在一个统一的量表上进行标定。这个过程就是等值。在实际的考试过程中,甲考生可能答对了8道容易的题目而答错了2道中等难度的题目,乙考生可能答对了2道难题,2道中等难度的题目,并答错了6道难题。尽管乙考生只答对了4道题,最后得分可能高于答对了8道题的甲考生。显然,如果没有合理的等值策略和精确的等值计算,对于考生将是不公平的。因此,建立等值模型是实现计算机化自适应性考试的核心问题,也是最主要的难点。      北京语言文化大学汉语水平考试中心的研究人员从1991年即着手进行计算机化自适应性考试的研究,并于1992年8月完成了一个实验性的计算机化自适应性考试模型,并在首届国际汉语水平考试学术讨论会上演示。今天,汉语水平考试中心的研究人员正在加紧进行测验等值和题库建设方面的研究。在不久的将来,我们将向世界推出自己的计算机化自适应性汉语水平考试。   (发表于《百科知识》1998年第5期)

(阅读更多精彩内容...)
十二 09

汉语水平考试发展的新方向——自适应性测试

2009年十二月9日,星期三,下午 3:03 | 分类:考试技术 | 给我留言 |

汉语水平考试发展的新方向                         ——计算机辅助自适应性汉语水平考试系统简介 一、摆脱普洛克路斯忒斯之床     在希腊神话中有一个强盗叫做普洛克路斯忒斯(Procrustes),他住在埃莱夫西斯附近。他设有一张铁床,强迫被捉到的人躺在床上,把身材矮小的拉长,把身材高大的截短,使他们的身体与铁床的长短相等。     工业化是一个以牺牲个性为代价而追求效率的时代。与私塾式的传统教育相比,伴随工业化过程而发展起来的现代学校教育大大地提高了教育的效率。为此,也付出了巨大的代价——教育中人的个性的丧失。现代的学校教育恰像普洛克路斯忒斯的铁床:不管人的能力有不同特点,将快的拉慢,将慢的拉快。在过去的岁月里,这或许是为了获得效率而不得不付的代价。但是,随着计算机技术神话般的迅速发展,兼有效率和个性的教育已经成为可能。     伴随教育而发展的考试也是如此。好的考试总是针对一定的对象而言。一个对于三年级学生来说很好的考试,对于一年级和五年级的学生来说则可能完全无效,或者说,一项考试在应用于三年级学生时可以提供许多关于学生水平的评价信息,但是在应用于一年级或五年级学生时则几乎提供不了多少有用的评价信息。这就是说,对于某一水平的考生来说是很好的一项考试,对于另一水平的考生来说可能并不是一项好的考试。就汉语水平考试(HSK)而言, 现行初中等HSK考试共有170道题,对于那些水平较高的考生来说,其中许多较容易的题目形同虚设;对于那些水平较低的考生来说,其中许多较难的题目的作用也非常有限。事实上,能够真正反映出一个考生能力的可能只有与该考生水平相当的几十道题。     1980年以前,我国的所有考试都是仅仅基于个人经验之上的,几乎没有考虑过用科学方法来提高考试的可靠性和有效性。从1980年以来,我们引进了西方的经典测验理论,迄今,高考、HSK等部分重要的考试已经基本被建立在经典测验的理论之上,并使其可靠性和有效性得到了一定的保证。但是,经典测验理论也是工业化时代的产物,它假设参加考试的考生都具有相近的水平,假设一个题目或一项考试对全体考生提供的评价信息是一样的。由于考生的水平不可能完全一样,这一假设并不符合实际。事实上,参加考试的人之间的水平差距可能非常大。在经典测验中有一条可以用数学方法予以严格证明的定理:中等难度的题目具有最大的区分度。显然,一道题目只可能对一部分考生具有“中等难度”,也只能对一部分考生达到最大的区分度。     能否在考试中使每个考生所回答的都是相对于他的水平来说基本属于“中等难度”的题目呢?以往,这一要求近乎异想天开,但计算机技术的发展使这个要求的实现成为可能。 二、“裁缝测验”    早在五十年代,“程序教学”和“机器教学”的理论就被提出,但是,囿于当时的技术条件,这些理论未能得到广泛地实践。与此相仿,由于认识到经典测验理论的局限,心理测量学家们很早就开始研究新的测验理论并试图编制个别化的测验。同样是由于技术条件的局限,在很长的时间之中这些研究成果未能得到充分的实践。八十年代以后,这一领域成为心理测量和考试研究的热点。在八十年代中期,笔者还认为这种一人占用一台计算机的考试是非常遥远的事情。要知道,那时计算机的使用曾按小时付费。想不到,不到十年时间,这类考试的开发已经提上日程。     今天,最主要的现代测验理论是项目反应理论(Item Response Theory,简称IRT)。经典测验理论假设参加考试的考生都具有相近的水平,项目反应理论不作这样的假设。根据项目反应理论,一项测验对不同水平的人提供的评价信息不一样,或者说,如果以一组同样的题目测试学生,为了获取同样数量的评价信息,对于不同水平的考生可以施测不同数量的题目。当考生之间的水平差距很大时,对于水平较高的考生来说,许多难度较低的题目几乎提供不了多少评价信息;对于水平较低的考生来说,许多难度较高的题目则几乎提供不了多少评价信息。     以0、1二值记分(答错记0分、答对记1分)的客观选择题今天被广泛应用于各种考试。根据经典测验理论,不论题目难易,答对均记1分。但是,题目在难易方面有时差距很大,质量方面也存在差异,这种记分方法并不合理。项目反应理论则根据题目的难易度和区分度进行记分。就是说,同样答对10道题的两个人的可能由于答对的题目不同而得到不同的分数。     经典测验理论的基本模型是将测验得分看作是真分数的估计值,将注意力集中于减小估计误差,数学模型的主要参数是样本的平均数、标准差、相关系数等;项目反应理论的基本模型是将考生对题目的反应看作是考生潜在特质的函数,将注意集中于对这种函数关系的模拟,数学模型的主要参数是题目反应曲线的特征参数。     自适应性考试(Adaptive Test )是基于项目反应理论之上的。自适应性考试是指在测验施测过程中根据考生特点调节试题数量和难度的测验。因此,自适应性测验又因其“量体裁衣”的特点而被称为“裁缝测验”(Tailor Test )。     借助计算机实现的自适应性考试的具体过程是:先给考生出一道中等难度的题目。如果他答对了,就随机给他一道稍微难一点的题目;如果他答错了,就随机给他一道稍微容易一点的题目。我们预先设定一个可以接受的误差范围,当他回答的题目所累计的信息量可以使误差足够小时,考试即告结束。(参看图一)  三、困难所在 在开发计算机辅助自适应性汉语水平考试的过程中需要解决一系列的技术难题。主要包括:   ㈠  题库建设    为了实现自适应性的汉语水平考试,必须具备一个较大的题库。所谓题库(Item Bank)是指按一定原则组织起来的一批试题,这些试题应具有关于题目性质和题目质量方面的参数。例如,该题目考察的知识内容、能力种类、难易度、区分度,等等。这个题库必须具有相当的规模,如上所述,在自适应性考试的过程中需要根据考生的回答情况来决定继续测试的题目的难度并随机抽取题目。因此,题库中的题目需要被划分为不同的难度等级,只有每一等级都具有一定数量的题目时,才可能从中随机抽取题目。     ㈡  参数估计     题库中的题目应该具有关于题目性质和质量方面的参数。根据项目反应理论,题目质量的主要参数是a、b、c三参数。这三个参数分别反映了题目的难度、区分度和受猜测影响的程度。参数估计需要通过对试测结果数据的分析来进行,一般采用极大似然估计方法。在参数估计的过程中需要用迭代方法反复求解偏微分方程,运算量极大。      ㈢  试卷等值      在自适应性考试中,不同考生将回答不同数量、不同内容的一组试题。为了保证考试的可靠性和公平性,必须将考生的成绩在一个相同的量表上进行标定。这就是试卷的等值问题。      ㈣  解决计算速度问题      [...]

(阅读更多精彩内容...)
  • 关于本站
  • 最新留言
  • 热评日志
  • 还没想好
Webtou 谈谈电子商务和互联网,谈谈学习电子商务和进入互联网的事儿!
觉得会有用,但一时还想不起来
君子三变
望之俨然,即之也温,听其言也厉。