汉语水平考试发展的新方向——自适应性测试
汉语水平考试发展的新方向
——计算机辅助自适应性汉语水平考试系统简介
一、摆脱普洛克路斯忒斯之床
在希腊神话中有一个强盗叫做普洛克路斯忒斯(Procrustes),他住在埃莱夫西斯附近。他设有一张铁床,强迫被捉到的人躺在床上,把身材矮小的拉长,把身材高大的截短,使他们的身体与铁床的长短相等。
工业化是一个以牺牲个性为代价而追求效率的时代。与私塾式的传统教育相比,伴随工业化过程而发展起来的现代学校教育大大地提高了教育的效率。为此,也付出了巨大的代价——教育中人的个性的丧失。现代的学校教育恰像普洛克路斯忒斯的铁床:不管人的能力有不同特点,将快的拉慢,将慢的拉快。在过去的岁月里,这或许是为了获得效率而不得不付的代价。但是,随着计算机技术神话般的迅速发展,兼有效率和个性的教育已经成为可能。
伴随教育而发展的考试也是如此。好的考试总是针对一定的对象而言。一个对于三年级学生来说很好的考试,对于一年级和五年级的学生来说则可能完全无效,或者说,一项考试在应用于三年级学生时可以提供许多关于学生水平的评价信息,但是在应用于一年级或五年级学生时则几乎提供不了多少有用的评价信息。这就是说,对于某一水平的考生来说是很好的一项考试,对于另一水平的考生来说可能并不是一项好的考试。就汉语水平考试(HSK)而言,
现行初中等HSK考试共有170道题,对于那些水平较高的考生来说,其中许多较容易的题目形同虚设;对于那些水平较低的考生来说,其中许多较难的题目的作用也非常有限。事实上,能够真正反映出一个考生能力的可能只有与该考生水平相当的几十道题。
1980年以前,我国的所有考试都是仅仅基于个人经验之上的,几乎没有考虑过用科学方法来提高考试的可靠性和有效性。从1980年以来,我们引进了西方的经典测验理论,迄今,高考、HSK等部分重要的考试已经基本被建立在经典测验的理论之上,并使其可靠性和有效性得到了一定的保证。但是,经典测验理论也是工业化时代的产物,它假设参加考试的考生都具有相近的水平,假设一个题目或一项考试对全体考生提供的评价信息是一样的。由于考生的水平不可能完全一样,这一假设并不符合实际。事实上,参加考试的人之间的水平差距可能非常大。在经典测验中有一条可以用数学方法予以严格证明的定理:中等难度的题目具有最大的区分度。显然,一道题目只可能对一部分考生具有“中等难度”,也只能对一部分考生达到最大的区分度。
能否在考试中使每个考生所回答的都是相对于他的水平来说基本属于“中等难度”的题目呢?以往,这一要求近乎异想天开,但计算机技术的发展使这个要求的实现成为可能。
二、“裁缝测验”
早在五十年代,“程序教学”和“机器教学”的理论就被提出,但是,囿于当时的技术条件,这些理论未能得到广泛地实践。与此相仿,由于认识到经典测验理论的局限,心理测量学家们很早就开始研究新的测验理论并试图编制个别化的测验。同样是由于技术条件的局限,在很长的时间之中这些研究成果未能得到充分的实践。八十年代以后,这一领域成为心理测量和考试研究的热点。在八十年代中期,笔者还认为这种一人占用一台计算机的考试是非常遥远的事情。要知道,那时计算机的使用曾按小时付费。想不到,不到十年时间,这类考试的开发已经提上日程。
今天,最主要的现代测验理论是项目反应理论(Item Response Theory,简称IRT)。经典测验理论假设参加考试的考生都具有相近的水平,项目反应理论不作这样的假设。根据项目反应理论,一项测验对不同水平的人提供的评价信息不一样,或者说,如果以一组同样的题目测试学生,为了获取同样数量的评价信息,对于不同水平的考生可以施测不同数量的题目。当考生之间的水平差距很大时,对于水平较高的考生来说,许多难度较低的题目几乎提供不了多少评价信息;对于水平较低的考生来说,许多难度较高的题目则几乎提供不了多少评价信息。
以0、1二值记分(答错记0分、答对记1分)的客观选择题今天被广泛应用于各种考试。根据经典测验理论,不论题目难易,答对均记1分。但是,题目在难易方面有时差距很大,质量方面也存在差异,这种记分方法并不合理。项目反应理论则根据题目的难易度和区分度进行记分。就是说,同样答对10道题的两个人的可能由于答对的题目不同而得到不同的分数。
经典测验理论的基本模型是将测验得分看作是真分数的估计值,将注意力集中于减小估计误差,数学模型的主要参数是样本的平均数、标准差、相关系数等;项目反应理论的基本模型是将考生对题目的反应看作是考生潜在特质的函数,将注意集中于对这种函数关系的模拟,数学模型的主要参数是题目反应曲线的特征参数。
自适应性考试(Adaptive Test )是基于项目反应理论之上的。自适应性考试是指在测验施测过程中根据考生特点调节试题数量和难度的测验。因此,自适应性测验又因其“量体裁衣”的特点而被称为“裁缝测验”(Tailor Test )。
借助计算机实现的自适应性考试的具体过程是:先给考生出一道中等难度的题目。如果他答对了,就随机给他一道稍微难一点的题目;如果他答错了,就随机给他一道稍微容易一点的题目。我们预先设定一个可以接受的误差范围,当他回答的题目所累计的信息量可以使误差足够小时,考试即告结束。(参看图一)
三、困难所在
在开发计算机辅助自适应性汉语水平考试的过程中需要解决一系列的技术难题。主要包括:
㈠ 题库建设
为了实现自适应性的汉语水平考试,必须具备一个较大的题库。所谓题库(Item Bank)是指按一定原则组织起来的一批试题,这些试题应具有关于题目性质和题目质量方面的参数。例如,该题目考察的知识内容、能力种类、难易度、区分度,等等。这个题库必须具有相当的规模,如上所述,在自适应性考试的过程中需要根据考生的回答情况来决定继续测试的题目的难度并随机抽取题目。因此,题库中的题目需要被划分为不同的难度等级,只有每一等级都具有一定数量的题目时,才可能从中随机抽取题目。
㈡ 参数估计
题库中的题目应该具有关于题目性质和质量方面的参数。根据项目反应理论,题目质量的主要参数是a、b、c三参数。这三个参数分别反映了题目的难度、区分度和受猜测影响的程度。参数估计需要通过对试测结果数据的分析来进行,一般采用极大似然估计方法。在参数估计的过程中需要用迭代方法反复求解偏微分方程,运算量极大。
㈢ 试卷等值
在自适应性考试中,不同考生将回答不同数量、不同内容的一组试题。为了保证考试的可靠性和公平性,必须将考生的成绩在一个相同的量表上进行标定。这就是试卷的等值问题。
㈣ 解决计算速度问题
自适应性汉语水平考试是一种根据考生水平来确定题目数量和难度的考试。因此,在考试进行过程中,我们就需要不断地以迭代和逼近方式估计考生的能力,估计每道题目所提供的信息量,估计考试使评价误差缩小的程度。对考生能力水平的估计是随着考试进行过程而不断变化的。考生每回答一道题,就要根据其答对或答错而对其能力水平进行一次估计。对于不同水平的考生每道题所提供的评价信息量是不同的。考生每回答一道题都会对关于他的能力水平的估计带来修正,因此,也需要对全部已经回答的题目所提供的信息量重新进行一次估计,并根据这种估计来确定考试是否结束。随着完成题目数量的增加,进行参数估计的计算量成倍增加。如果计算速度不能满足需要,调出题目的时间就会加长,以至影响到考试的顺利进行。因此,必需通过优化算法和改进计算机程序来解决计算速度问题。
㈤ 语音材料的数字化和数据压缩
HSK考试包括听力。现行HSK考试是采用录音播放的方式:先由播音员将试题录制在磁带上,考试时播放录音。如果实行计算机辅助的自适应性考试,在考试过程中需要根据考生答题情况随机出题。对此,很难以磁带录音播放方式实现,必须实现语音材料的数字化,以计算机的存储器来存储试题的语音材料以备随时、随机调用试题。由于数字化的语音材料占据很大的存储器容量,必须解决语音保真、数据压缩和快速读写等方面的问题。
㈥ 建设高效率的计算机网络系统
以单机方式实现自适应性考试没有多大意义。如果采用多终端方式,任务在主机上以分时方式执行,考虑到自适应性考试进行过程中巨大的计算量,当许多考生同时参加考试时,此种方式很难满足计算速度方面的要求。自适应性考试需要在“服务器—客户”网络环境中实现。这时,题库可以存放在服务器的存储器中,各个工作站甚至可以不配存储器。考试的结果信息可以非常方便地集中汇总到中心控制台,监考人可以随时掌握每一位考生的答题情况。
在考试过程中,十几个以至几十个考生同时从题库中随机调用包括语音材料在内的试题,很容易因造成信息输入输出“瓶颈”而影响效率。因此,必须建立一个高效率的计算机网络。
四、已取得的进展
北京语言学院汉语水平考试中心的研究人员从1984年即开始研制汉语水平考试,近十年来已经积累了较丰富的经验。迄今,汉语水平考试中心已经完成了一个小规模的题库建设,已经积累了相当数量的题目,其中大多已在试测基础上根据经典测验理论估计出了题目参数。这些题目是编制计算机辅助自适应性汉语水平考试的基础。从1991年即着手进行计算机辅助自适应性测验方面的研究,并于1992年8月完成了一个实验性的计算机辅助自适应性考试模型,并在首届国际汉语水平考试学术讨论会上演示。
五、再度成为“先生”
目前,HSK考试每年在北京举行两次,在国内其它城市和国外每年仅举行一次。这种局面对于许多希望利用工作、旅游等来华机会参加HSK考试的外国朋友很不方便,在其它时间他们就不能参加考试。如果实现了计算机辅助自适应性汉语水平考试,希望利用来华机会参加考试的外国朋友就可以随时参加考试。
目前,参加HSK考试的考生一般在考试后一个月才能得到考试成绩。如果实现了计算机辅助自适应性汉语水平考试,考生在考试以后立即就可以拿到成绩。
“考试源于中国”是举世公认的。中国的科举考试始于1300年前的隋朝,到宋明以后日臻完善。17世纪以后,以科举考试为代表的中国考试制度通过传教士介绍到西方,推动了西方现代考试科学的发展。但近百年来,中国的考试研究远远地落在了西方的后面,恰像发明了造纸术的中国后来却需要从西方引进成套造纸设备一样。然而,经过改革开放以来十余年的努力,在考试科学研究方面我们已经迎头赶上。作为考试故乡的中国,已经有可能在考试领域里重新对人类作出贡献。
在国际范围内,近年以来关于项目反应理论和自适应性考试的研究非常热烈,但真正付诸实用的自适应性考试并不多见。据1993年11月15日《纽约时报》载,由美国教育测验服务中心(ETS)制的《研究生水平考试(GRE)》已经推出了一种在计算机上实现的版本。“参加计算机化GRE考试的考生,不必再在每年5次的考试时间里与别人一起坐到大教室里,他们可以在每周规定的几天时间内去计算机中心参加考试”。但是,目前实行的计算机化GRE并不是自适应性考试。ETS计划在不久的将来推出一套自适应性的计算机化GRE考试。而且,GREK考试并不涉及语音问题,从技术方面讲,并不涉及计算机多媒体方面的问题。
在1993年9月在南京举行的“中国—加拿大公务员考试录用制度研讨会”的闭幕式上,加拿大代表团团长斯列文斯基先生曾坦率而真诚地讲到:“两年前,我们到中国来与你们讨论考试问题时,基本上是我们讲,你们听。那时,我们是‘先生’,你们是‘学生’。在这次的研讨会上,我感到我们已经是在平等地相互交流各自的经验。在某些方面你们已经超过了我们。祝贺你们!”如果我们能够在较短的时间中完成计算机辅助自适应性汉语水平考试的研制工作,那么,我国在考试科学研究领域将重新进入世界前列。将在考试科学研究方面使我们完成近代以来由“学生”角色向“先生”角色的转变,将使我们结束十几年来单纯引进和修订国外考试的局面,并开始向国外输出自己的考试。不仅输出具体的考试,而且输出考试编制方面的科学技术。“先生”角色的转变,将使我们结束十几年来单纯引进和修订国外考试的局面,并开始向国外输出自己的考试。不仅输出具体的考试,而且输出考试编制方面的科学技术。
(1992年向“首届国际汉语水平考试研讨会”提交的论文,收入该会议的《论文集》,北京语言大学出版社出版,1995)






