Archive for the ‘考试技术’ Category
项目反应理论
项目反应理论(item response theory)也称潜在特质理论或潜在特质模型,是一种现代心理测量理论,其意义在于可以指导项目筛选和测验编制。项目反应理论假设被试有一种“潜在特质”,潜在特质是在观察分析测验反应基础上提出的一种统计构想,在测验中,潜在特质一般是指潜在的能力,并经常用测验总分作为这种潜力的估算。项目反应理论认为被试在测验项目的反应和成绩与他们的潜在特质有特殊的关系。通过项目反应理论建立的项目参数具有恒久性的特点,意味着不同测量量表的分数可以统一。项目反应理论通过项目反应曲线综合各种项目分析的资料,使我们综合直观地看出项目难度、鉴别度等项目分析的特征,从而起到指导项目筛选和编制测验比较分数等作用。
考试发展的新方向:计算机化自适应性考试
主持“托福”考试和GRE考试的美国教育测验服务中心(ETS)已经宣布,将在1998年7月在全世界大部分地区用计算机化自适应性的“托福”考试取代现行的纸笔考试,并在2001年在全球完全取消纸笔“托福”考试。ETS已于1993年推出了计算机化的GRE考试,于1994年推出了自适应性的GRE考试。今天,ETS已经在美国本土取消了纸笔的GRE考试。负责承担在中国实施GRE和“托福”考试的国家教委考试中心正在加紧安装、调试设备,首次计算机化的、自适应性的GRE有望于年内在中国举行,首次计算机化的“托福”考试有望明年在中国举行。
当“托福”和GRE考试以纸笔方式进行时,考生在美国本土每年只有五次参加考试的机会,在中国每年只有两次参加考试的机会。实现计算机化的考试以后,原则上考生在一年365天的每一天都可以参加考试。以往,考生在参加完考试以后,至少一个月以后才能拿到考试成绩。实现计算机化的考试以后,考生在考试之后立即可以拿到成绩。这些固然是计算机化考试的优点,但实现计算机化自适应性考试的主要意义并不在这里,而在于新的考试方式可以大大地提高考试的可靠性。
跳出普洛克路斯忒斯之床
在希腊神话中有一个强盗叫作普洛克路斯忒斯(Procrustes),他住在埃莱夫西斯附近。他设有一张铁床,强迫被捉到的人躺在床上,把身材矮小的拉长,把身材高大的截短,使他们的身体与铁床的长短相等。
工业化是一个以牺牲个性为代价来追求效率的时代。与私塾式的传统教育相比,伴随工业化过程而发展起来的现代学校教育大大地提高了教育的效率。为此,也付出了巨大的代价——教育中人的个性的丧失。现代的学校教育恰象普洛克路斯忒斯的铁床:不管人的能力有不同特点,将快的拉慢,将慢的拉快。在过去的岁月里,这或许是为了获得效率而不得不付的代价。但是,随着计算机技术神话般的迅速发展,兼有效率和个性的教育已经成为可能。
伴随教育而发展的考试也是如此。传统的团体性考试是工业化时代的产物,它假设参加考试的考生都具有相近的水平,假设一个题目或一项考试对全体考生提供的评价信息是一样的。由于考生的水平不可能完全一样,这一假设并不符合实际。事实上,好的考试总是针对一定的对象而言。一个对于三年级学生来说很好的考试,对于一年级和五年级的学生来说则可能完全无效,或者说,一项考试在应用于三年级学生时可以提供许多关于学生水平的评价信息,但是在应用于一年级或五年级学生时则几乎提供不了多少有用的评价信息。对于某一水平的考生来说是很好的一项考试,对于另一水平的考生来说可能并不是一项好的考试。就一份包含100道题目的试卷而言,对于那些水平较高的考生来说,其中许多较容易的题目形同虚设;对于那些水平较低的考生来说,其中许多难题的作用也非常有限。事实上,能够真正反映出一个考生能力的可能只有与该考生水平相当的几十道题。就是说,在100道题中真正有效的仅仅有几十道题。如果在一次考试中一位考生所回答的问题都是与他的水平相适应的,都是有效的,就可以大大提高评价的准确性。能否在考试中使每个考生所回答的所有问题都与他的水平相当呢?以往,这一要求近乎异想天开,但计算机技术的发展使这种个性化的考试成为可能。
“裁缝测验”
早在五十年代,“程序教学”和“机器教学”的理论就被提出,但是,囿于当时的技术条件,这些理论未能得到广泛地实践。与此相仿,由于认识到经典测验理论的局限,心理测量学家们很早就开始研究新的测验理论并试图编制个别化的测验。同样是由于技术条件的局限,在很长的时间之中这些研究成果未能得到充分的实践。八十年代以后,随着计算机技术的发展,基于计算机之上的自适应性考试(Adaptive Test )应运而生。自适应性考试是指在考试施测过程中根据考生特点调节试题数量和难度的考试。因此,自适应性考试又因其“量体裁衣”的特点而被称为“裁缝测验”(Tailored Test )。
借助计算机实现的自适应性考试的具体过程是:先给考生出一道中等难度的题目。如果他答对了,就随机给他一道稍微难一点的题目;如果他答错了,就随机给他一道稍微容易一点的题目。我们预先设定一个可以接受的误差范围,当他回答的题目所累计的信息量可以使误差足够小时,考试即告结束。
自适应考试流程图1
自适应考试流程图2
自适应考试流程图3
自适应性考试的理论基础是现代测验理论。根据现代测验理论,一道题目对于不同水平的考生所提供的信息量不同。自适应性考试需要根据考生水平来确定题目数量和难度。在考试进行过程中,需要不断地估计考生的能力,并根据估计得到的关于考生能力水平的参数来计算每道题目所提供的信息量,并估计考试的测量误差幅度。对考生能力水平的估计是随着考试进行过程而不断变化的,关于信息量和测量误差的估计也是不断变化的。因此,整个考试是一个计算机系统与考生不断相互作用的动态过程。
题库
为了实现计算机化的自适应性考试,必须具备一个较大规模的题库。所谓题库(Item Bank)是指按一定原则组织起来的一批试题,这些试题应具有关于题目性质和题目质量方面的参数。例如,该题目考察的知识内容、能力种类、难易度、区分度,等等。尽管各个考生所回答的试题是不一样的,但每位考生所完成的试卷结构应该是基本相同的。例如,在一个物理考试中,每一位考生所回答的问题都应该包含力学、光学、电磁学等内容,都应该包含对概念理解、计算和应用能力的考察。这样,题库首先需要根据知识内容、能力种类被划分为许多题目单元。在自适应性考试的过程中需要根据考生的答题情况来决定继续测试的题目的难度并随机抽取题目。因此,这些分别属于不同知识内容和能力种类的题目单元又要被划分为不同的难度等级,只有每一等级都具有一定数量的题目时,才可能从中随机抽取题目。考虑到试题的保密性和公平性,通常,一道试题一旦被选中,在相当一个时期内它就应该被“冻结”。不难理解,为了使计算机化的自适应性考试得以顺利进行,题库必须具有相当的规模。编制具有相当规模的题库,使题库中的每道题目都具备知识内容、能力种类、难易度、区分度等方面的参数,这是实现计算机化自适应性考试的难点之一。
等值
考试的目的是为了对考生的水平作出客观、公正的评价。考试的分数经常成为入学、就业决策的依据。在计算机化自适应性考试中,不同的考生将回答不同数量、不同内容的一组试题。为了保证考试的客观性和公平性,必须在这些各个不同的试卷之间建立起可比性,必须将考生的成绩在一个统一的量表上进行标定。这个过程就是等值。在实际的考试过程中,甲考生可能答对了8道容易的题目而答错了2道中等难度的题目,乙考生可能答对了2道难题,2道中等难度的题目,并答错了6道难题。尽管乙考生只答对了4道题,最后得分可能高于答对了8道题的甲考生。显然,如果没有合理的等值策略和精确的等值计算,对于考生将是不公平的。因此,建立等值模型是实现计算机化自适应性考试的核心问题,也是最主要的难点。
北京语言文化大学汉语水平考试中心的研究人员从1991年即着手进行计算机化自适应性考试的研究,并于1992年8月完成了一个实验性的计算机化自适应性考试模型,并在首届国际汉语水平考试学术讨论会上演示。今天,汉语水平考试中心的研究人员正在加紧进行测验等值和题库建设方面的研究。在不久的将来,我们将向世界推出自己的计算机化自适应性汉语水平考试。
(发表于《百科知识》1998年第5期)
汉语水平考试发展的新方向——自适应性测试
汉语水平考试发展的新方向
——计算机辅助自适应性汉语水平考试系统简介
一、摆脱普洛克路斯忒斯之床
在希腊神话中有一个强盗叫做普洛克路斯忒斯(Procrustes),他住在埃莱夫西斯附近。他设有一张铁床,强迫被捉到的人躺在床上,把身材矮小的拉长,把身材高大的截短,使他们的身体与铁床的长短相等。
工业化是一个以牺牲个性为代价而追求效率的时代。与私塾式的传统教育相比,伴随工业化过程而发展起来的现代学校教育大大地提高了教育的效率。为此,也付出了巨大的代价——教育中人的个性的丧失。现代的学校教育恰像普洛克路斯忒斯的铁床:不管人的能力有不同特点,将快的拉慢,将慢的拉快。在过去的岁月里,这或许是为了获得效率而不得不付的代价。但是,随着计算机技术神话般的迅速发展,兼有效率和个性的教育已经成为可能。
伴随教育而发展的考试也是如此。好的考试总是针对一定的对象而言。一个对于三年级学生来说很好的考试,对于一年级和五年级的学生来说则可能完全无效,或者说,一项考试在应用于三年级学生时可以提供许多关于学生水平的评价信息,但是在应用于一年级或五年级学生时则几乎提供不了多少有用的评价信息。这就是说,对于某一水平的考生来说是很好的一项考试,对于另一水平的考生来说可能并不是一项好的考试。就汉语水平考试(HSK)而言,
现行初中等HSK考试共有170道题,对于那些水平较高的考生来说,其中许多较容易的题目形同虚设;对于那些水平较低的考生来说,其中许多较难的题目的作用也非常有限。事实上,能够真正反映出一个考生能力的可能只有与该考生水平相当的几十道题。
1980年以前,我国的所有考试都是仅仅基于个人经验之上的,几乎没有考虑过用科学方法来提高考试的可靠性和有效性。从1980年以来,我们引进了西方的经典测验理论,迄今,高考、HSK等部分重要的考试已经基本被建立在经典测验的理论之上,并使其可靠性和有效性得到了一定的保证。但是,经典测验理论也是工业化时代的产物,它假设参加考试的考生都具有相近的水平,假设一个题目或一项考试对全体考生提供的评价信息是一样的。由于考生的水平不可能完全一样,这一假设并不符合实际。事实上,参加考试的人之间的水平差距可能非常大。在经典测验中有一条可以用数学方法予以严格证明的定理:中等难度的题目具有最大的区分度。显然,一道题目只可能对一部分考生具有“中等难度”,也只能对一部分考生达到最大的区分度。
能否在考试中使每个考生所回答的都是相对于他的水平来说基本属于“中等难度”的题目呢?以往,这一要求近乎异想天开,但计算机技术的发展使这个要求的实现成为可能。
二、“裁缝测验”
早在五十年代,“程序教学”和“机器教学”的理论就被提出,但是,囿于当时的技术条件,这些理论未能得到广泛地实践。与此相仿,由于认识到经典测验理论的局限,心理测量学家们很早就开始研究新的测验理论并试图编制个别化的测验。同样是由于技术条件的局限,在很长的时间之中这些研究成果未能得到充分的实践。八十年代以后,这一领域成为心理测量和考试研究的热点。在八十年代中期,笔者还认为这种一人占用一台计算机的考试是非常遥远的事情。要知道,那时计算机的使用曾按小时付费。想不到,不到十年时间,这类考试的开发已经提上日程。
今天,最主要的现代测验理论是项目反应理论(Item Response Theory,简称IRT)。经典测验理论假设参加考试的考生都具有相近的水平,项目反应理论不作这样的假设。根据项目反应理论,一项测验对不同水平的人提供的评价信息不一样,或者说,如果以一组同样的题目测试学生,为了获取同样数量的评价信息,对于不同水平的考生可以施测不同数量的题目。当考生之间的水平差距很大时,对于水平较高的考生来说,许多难度较低的题目几乎提供不了多少评价信息;对于水平较低的考生来说,许多难度较高的题目则几乎提供不了多少评价信息。
以0、1二值记分(答错记0分、答对记1分)的客观选择题今天被广泛应用于各种考试。根据经典测验理论,不论题目难易,答对均记1分。但是,题目在难易方面有时差距很大,质量方面也存在差异,这种记分方法并不合理。项目反应理论则根据题目的难易度和区分度进行记分。就是说,同样答对10道题的两个人的可能由于答对的题目不同而得到不同的分数。
经典测验理论的基本模型是将测验得分看作是真分数的估计值,将注意力集中于减小估计误差,数学模型的主要参数是样本的平均数、标准差、相关系数等;项目反应理论的基本模型是将考生对题目的反应看作是考生潜在特质的函数,将注意集中于对这种函数关系的模拟,数学模型的主要参数是题目反应曲线的特征参数。
自适应性考试(Adaptive Test )是基于项目反应理论之上的。自适应性考试是指在测验施测过程中根据考生特点调节试题数量和难度的测验。因此,自适应性测验又因其“量体裁衣”的特点而被称为“裁缝测验”(Tailor Test )。
借助计算机实现的自适应性考试的具体过程是:先给考生出一道中等难度的题目。如果他答对了,就随机给他一道稍微难一点的题目;如果他答错了,就随机给他一道稍微容易一点的题目。我们预先设定一个可以接受的误差范围,当他回答的题目所累计的信息量可以使误差足够小时,考试即告结束。(参看图一)
三、困难所在
在开发计算机辅助自适应性汉语水平考试的过程中需要解决一系列的技术难题。主要包括:
㈠ 题库建设
为了实现自适应性的汉语水平考试,必须具备一个较大的题库。所谓题库(Item Bank)是指按一定原则组织起来的一批试题,这些试题应具有关于题目性质和题目质量方面的参数。例如,该题目考察的知识内容、能力种类、难易度、区分度,等等。这个题库必须具有相当的规模,如上所述,在自适应性考试的过程中需要根据考生的回答情况来决定继续测试的题目的难度并随机抽取题目。因此,题库中的题目需要被划分为不同的难度等级,只有每一等级都具有一定数量的题目时,才可能从中随机抽取题目。
㈡ 参数估计
题库中的题目应该具有关于题目性质和质量方面的参数。根据项目反应理论,题目质量的主要参数是a、b、c三参数。这三个参数分别反映了题目的难度、区分度和受猜测影响的程度。参数估计需要通过对试测结果数据的分析来进行,一般采用极大似然估计方法。在参数估计的过程中需要用迭代方法反复求解偏微分方程,运算量极大。
㈢ 试卷等值
在自适应性考试中,不同考生将回答不同数量、不同内容的一组试题。为了保证考试的可靠性和公平性,必须将考生的成绩在一个相同的量表上进行标定。这就是试卷的等值问题。
㈣ 解决计算速度问题
自适应性汉语水平考试是一种根据考生水平来确定题目数量和难度的考试。因此,在考试进行过程中,我们就需要不断地以迭代和逼近方式估计考生的能力,估计每道题目所提供的信息量,估计考试使评价误差缩小的程度。对考生能力水平的估计是随着考试进行过程而不断变化的。考生每回答一道题,就要根据其答对或答错而对其能力水平进行一次估计。对于不同水平的考生每道题所提供的评价信息量是不同的。考生每回答一道题都会对关于他的能力水平的估计带来修正,因此,也需要对全部已经回答的题目所提供的信息量重新进行一次估计,并根据这种估计来确定考试是否结束。随着完成题目数量的增加,进行参数估计的计算量成倍增加。如果计算速度不能满足需要,调出题目的时间就会加长,以至影响到考试的顺利进行。因此,必需通过优化算法和改进计算机程序来解决计算速度问题。
㈤ 语音材料的数字化和数据压缩
HSK考试包括听力。现行HSK考试是采用录音播放的方式:先由播音员将试题录制在磁带上,考试时播放录音。如果实行计算机辅助的自适应性考试,在考试过程中需要根据考生答题情况随机出题。对此,很难以磁带录音播放方式实现,必须实现语音材料的数字化,以计算机的存储器来存储试题的语音材料以备随时、随机调用试题。由于数字化的语音材料占据很大的存储器容量,必须解决语音保真、数据压缩和快速读写等方面的问题。
㈥ 建设高效率的计算机网络系统
以单机方式实现自适应性考试没有多大意义。如果采用多终端方式,任务在主机上以分时方式执行,考虑到自适应性考试进行过程中巨大的计算量,当许多考生同时参加考试时,此种方式很难满足计算速度方面的要求。自适应性考试需要在“服务器—客户”网络环境中实现。这时,题库可以存放在服务器的存储器中,各个工作站甚至可以不配存储器。考试的结果信息可以非常方便地集中汇总到中心控制台,监考人可以随时掌握每一位考生的答题情况。
在考试过程中,十几个以至几十个考生同时从题库中随机调用包括语音材料在内的试题,很容易因造成信息输入输出“瓶颈”而影响效率。因此,必须建立一个高效率的计算机网络。
四、已取得的进展
北京语言学院汉语水平考试中心的研究人员从1984年即开始研制汉语水平考试,近十年来已经积累了较丰富的经验。迄今,汉语水平考试中心已经完成了一个小规模的题库建设,已经积累了相当数量的题目,其中大多已在试测基础上根据经典测验理论估计出了题目参数。这些题目是编制计算机辅助自适应性汉语水平考试的基础。从1991年即着手进行计算机辅助自适应性测验方面的研究,并于1992年8月完成了一个实验性的计算机辅助自适应性考试模型,并在首届国际汉语水平考试学术讨论会上演示。
五、再度成为“先生”
目前,HSK考试每年在北京举行两次,在国内其它城市和国外每年仅举行一次。这种局面对于许多希望利用工作、旅游等来华机会参加HSK考试的外国朋友很不方便,在其它时间他们就不能参加考试。如果实现了计算机辅助自适应性汉语水平考试,希望利用来华机会参加考试的外国朋友就可以随时参加考试。
目前,参加HSK考试的考生一般在考试后一个月才能得到考试成绩。如果实现了计算机辅助自适应性汉语水平考试,考生在考试以后立即就可以拿到成绩。
“考试源于中国”是举世公认的。中国的科举考试始于1300年前的隋朝,到宋明以后日臻完善。17世纪以后,以科举考试为代表的中国考试制度通过传教士介绍到西方,推动了西方现代考试科学的发展。但近百年来,中国的考试研究远远地落在了西方的后面,恰像发明了造纸术的中国后来却需要从西方引进成套造纸设备一样。然而,经过改革开放以来十余年的努力,在考试科学研究方面我们已经迎头赶上。作为考试故乡的中国,已经有可能在考试领域里重新对人类作出贡献。
在国际范围内,近年以来关于项目反应理论和自适应性考试的研究非常热烈,但真正付诸实用的自适应性考试并不多见。据1993年11月15日《纽约时报》载,由美国教育测验服务中心(ETS)制的《研究生水平考试(GRE)》已经推出了一种在计算机上实现的版本。“参加计算机化GRE考试的考生,不必再在每年5次的考试时间里与别人一起坐到大教室里,他们可以在每周规定的几天时间内去计算机中心参加考试”。但是,目前实行的计算机化GRE并不是自适应性考试。ETS计划在不久的将来推出一套自适应性的计算机化GRE考试。而且,GREK考试并不涉及语音问题,从技术方面讲,并不涉及计算机多媒体方面的问题。
在1993年9月在南京举行的“中国—加拿大公务员考试录用制度研讨会”的闭幕式上,加拿大代表团团长斯列文斯基先生曾坦率而真诚地讲到:“两年前,我们到中国来与你们讨论考试问题时,基本上是我们讲,你们听。那时,我们是‘先生’,你们是‘学生’。在这次的研讨会上,我感到我们已经是在平等地相互交流各自的经验。在某些方面你们已经超过了我们。祝贺你们!”如果我们能够在较短的时间中完成计算机辅助自适应性汉语水平考试的研制工作,那么,我国在考试科学研究领域将重新进入世界前列。将在考试科学研究方面使我们完成近代以来由“学生”角色向“先生”角色的转变,将使我们结束十几年来单纯引进和修订国外考试的局面,并开始向国外输出自己的考试。不仅输出具体的考试,而且输出考试编制方面的科学技术。“先生”角色的转变,将使我们结束十几年来单纯引进和修订国外考试的局面,并开始向国外输出自己的考试。不仅输出具体的考试,而且输出考试编制方面的科学技术。
(1992年向“首届国际汉语水平考试研讨会”提交的论文,收入该会议的《论文集》,北京语言大学出版社出版,1995)






