作者简介:刘玥,杭州师范学院心理学部博士研究生。成都;游森,中国教育学会副秘书长。上海
内容提要:教育质量检测工具的公正性将影响到整个教育质量检测结果的有效性和可效度。相关的教育测验评价标准测量质量的工具_教学参考,如英国《教育与心理检测标准》和《ETS质量和公正性标准》为保证测验的公正性提供了参考。为满足这种标准的要求,合理充分地运用测验等值、项目功能差别剖析和低利害测验中的不努力作答剖析等技术手段是保证教育质量检测工具公正性的重要形式。结合我国的特性,建议从科学命题、合理实现等值设计和技巧选用、基于相关指标修订工具、加强教育质量检测工具监控等方面来保证教育质量检测工具的公正性。
关键词:教育质量检测工具;公正性;测验等值;项目功能差别;不努力作答
标题注释:本文系国家社会科学基金“十三五”规划2018年度教育学通常课题“中国基础教育质量评估检测工具标准规范研究”(项目编号:)阶段性研究成果。
[中图分类号]G464[文献标示码]A[文章编号]1002-4808(2019)08-0024-05
随着我国义务教育质量检测制度的完善以及各层面教育质量检测的有序举办,教育质量检测正积极服务于教育管理决策、教育教学的改进与提升。在这一背景下,教育质量检测非常是教育质量检测工具的公正性问题也日渐成为学术界和实践领域关注的焦点。其实与传统的学业成就性测验相比,教育质量检测属于低利害测验,测验结果对个体没有直接影响,而且公正性一直是教育质量检测工具值得优先考虑的关键事项。由于它决定着能够全面客观地搜集到检测对象的真实信息,最终实现检测推动教育质量提升和均衡发展、服务教育决策的目的[1]。
一、教育质量检测公正性期盼下的测验工具要求
(一)教育测验公正性的内涵
经济合作与发展组织(OECD)在2012年出版的《教育的平等和质量:支持弱势中学生和中学》一书中,对教育公正给出了包括两个方面的定义:一是公正();二是全纳()。要实现教育公正,一方面,在高利害的教育考试中(如中考),须要通过保障考试的公正性守护教育公正乃至社会公正;另一方面,对于低利害的教育质量检测,也须要通过工具公正性的保障,着力保证检测结果的可靠性和科学性,使其才能对教育教学变革发挥最大程度的作用。教育测验公正性是指测验要公正、平等地对待考生测量质量的工具_教学参考,测验结果不受与测量构念(某一测验所要检测的全部知识、技能及能力等)无关的考生个体特点(如残障、性别、种族、民族等)的影响[2]。
(二)教育测验公正性的制度保障借鉴
为了实现教育测验的公正性,相关机构所颁布的教育测验评价标准提供了重要的制度保障。目前,国际上较为公认的标准有两个,一是日本《教育与心理检测标准》,二是知名教育考试机构英国教育考试服务公司(ETS)的《ETS质量和公正性标准》。这两个标准都将教育测验的公正性置于十分重要的位置。
1.日本《教育与心理检测标准》
1985年出版的日本《教育与心理检测标准》中,将公正性作为与测验的制做、评估和文件存档以及测验的应用相并列的第二大部份,包括测试和测验应用中的公正性、考生的权力和义务、多元语言背景考生的测试、残疾考生的测试四个章节的内容。[3]这对我们的启发是,对于教育测验的公正性,应当从两个维度来综合考虑。第一个维度是测验公正性的对象,即应该全面地剖析对象的特点,考虑到考生群体所具有的不同民族、性别、种族、语言背景及身体残疾与否等。非常是对于一些较为敏感的群体,应该保证测验分数对于所有的子群体都是公平有效的。比如,我国疆域广阔,民族诸多,不同的民族有不同的生活风俗、语言文化。在进行全省范围的教育质量检测时,怎样保证检测工具考虑到了不同民族的特性,对于少数民族群体的检测没有包含与检测目标无关的误差,是保证教育质量检测工具公正性应该认真思索的问题。第二个维度是测验的整个过程,包括测验设计、开发、施测、评分、分数合成、分数解释等各个环节。应该在每一个环节中都考虑不同子群体的特性,实现真正的公正。
2.日本教育考试服务公司(ETS)的《ETS质量和公正性标准》
与《教育与心理检测标准》相比,《ETS质量和公正性标准》[4]愈加具体,具有更强的操作性。在该标准中,公正性是第五章的内容。总的来说,2014年版的《ETS质量和公正性标准》为测验工具的公正性提出了新的要求。比如,对产品或服务提供公正的可及性,对测验提供注册、施测和结果报告方面的公正性证据。这对我们也有一定的启发。我国往年的测验,大多偏重通过报告测验成绩来评价考生、教师和中学,甚少重视对于测验质量本身的评价。虽然有关于测验质量评价的研究,也多从内容要素、信度、难度、试卷厚度、题型等方面进行[5][6],极少从公正性的角度对测验质量进行评价。日本教育考试服务公司对测验质量的要求提醒我们,保证测验本身的科学、公平和公平,才是运用测验分数进行决策的前提。相关的教育考试机构除了对测验的命题、施测等环节负有直接责任,更重要的是要同时提供包括测验公正性在内的测验质量的相关证据,促使测验的公正性和有效性遭到大众的监督,致使测验的结果更具有公信力。
(三)教育测验公正性到工具公正性
综合以上两个标准可以发觉,一方面,测验所涉及的所有环节,都与测验工具有关。测验设计、测验开发、测验评分这几个环节都以测验工具为主要对象,可以通过一些程序性的操作规范和相关的统计检测学指标,严格控制所开发的测验工具的质量,保证其满足公正性的要求;在前面的数据剖析环节中,又可以通过教育检测中一些专门的技术和手段,对测验工具的公正性进行进一步的后验性评估,因而为分数的解释和使用提供更可靠的证据。另一方面,为保证测验公正性,提供测验工具公正性的证据是测验开发部门的主要责任和义务。因而,从已有标准对于教育测验公正性的规定出发,我们觉得,保证教育质量检测公正性的核心就是要保证教育质量检测工具的公正性。
二、教育检测专业视角下教育质量检测工具公正性的技术保障
在教育质量检测中,涉及各类各样的教育测验工具,既包括与学业成就相关的试题,也包括测试中学生品德发展水平和身心发展水平等非学业水平的量表、调查中学生课业负担的问卷、调查中学生学习背景的问卷等。虽然教育质量检测工具的标准直接关系到检测结果的有效性和可效度,并且截止目前,一直没有产生普遍一致的,专门针对教育质量检测工具的评价指标和标准。国内的相关标准对我国教育质量检测工具质量的研究和保障提供了重要的参考。从教育检测专业的角度出发,仅针对教育质量检测工具中的学业成就相关测验,怎样通过一些技术手段保障测验工具的公正性,是本文接出来要注重介绍和阐述的方面。
(一)测验等值
在教育质量检测中,因为测试的内容较为广泛而测试的时间极为有限,经常会用到矩阵抽样的技术。这时会出现考察同一个内容的多个测验方式,为了实现这种测验分数之间的比较,常常须要使用测验等值的方式[7]。除此之外,在教育质量检测中,有时还须要对同一测验内容不同年份的测验结果进行比较,以得到个别群体的能力发展变化情况,这时也须要使用测验等值的方式将不同测试时间得到的结果链接上去,使之具有可比性。
在教育质量检测的等值中,一般应该包括以下四个步骤。一是确定等值目的。这跟测验的整体设计有关,例如,在矩阵抽样设计中,等值的目的就是将那些不同事生在不同题册上作答的分数实现等值。二是设计数据搜集方法。设计数据搜集方法(等值设计),即确定采取何种形式对考生施行测验。等值设计的基本原则就是促使所采集的数据能最有效地提供不同测验版本的差别信息,也就是说,数据采集中的特殊设计使不同版本测验之间得以构建联系。基本的等值设计有单一组设计、随机等组设计、平衡设计、非等组铆测验设计等。归根究竟,这种设计区别就在于构建不同版本测验之间联系的方式不同,基本就是“铆人”和“铆题”两种。在教育质量检测中,普遍使用的是铆题的形式。三是对考试分数进行等值处理。基于不同的等值设计和理论假定,早已有大量较为成熟的等值技巧。按照等值根据的理论,可分为精典检测理论(CTT)等值和项目反应理论(IRT)等值;按照等值的直接操作对象,可分为测验分数的等值和项目参数的等值;按照等值关系的假定是否为线性,可分为线性等值和非线性等值;按照等值测验之间的关系,可分为水平等值和垂直等值;按照等值进行的步骤,可分为分别等值和同时等值。四是等值结果评价。等值完成后须要对等值结果进行评价,论证所恐怕的等值关系的可靠性和确切性。等值结果评价可以从测验编制、施测、统计方式以及根据的等值假定等方面进行。评价的主要标准就是等值偏差。
(二)项目功能差别剖析
项目功能差别(DIF)指的是一个项目(题目)在不同团体中造成的差别,或则说是在两个具有相同能力但有不同匹配的组别中造成的差别。从最初的公正性研究仍然到现今测验的信信度研究,DIF的测量仍然在发挥着很重要的作用[8]。只有当导致DIF的缘由是两组被试在与测验所测的能力无关的知识或经验上存在差别时,才会觉得具有项目误差。诸如,以英文为母语的中学生和以法语为英语的中学生在同一个物理测验中的分数差别,包含着因语言限制导致的误差。并且,存在明显的DIF是测验不公正的必要而非充分条件。1986年夏开始,ETS对测验的编制过程规定:必须对试卷进行项目功能差别的剖析,对试卷的常规剖析过程加入了一个项目功能差别指数[9]。
目前,关于DIF检验早已发展出好多相对成熟的技巧。剖析方式的类别主要有[10][11]:一是按照项目的计分方法,可分为适用于二级计分(如MH、、LRDIF和STND)和适用于多级计分项目的方式(如LRDIF、STND、、DLA、MLA等);二是依据技巧是否以参数恐怕为基础,可分为参数方式(IRT和LRDIF)和非参数方式(、MH、STND等);三是按照匹配变量是否是真分数,可分为实际得分(比如STND、MH和LRDIF等方式)和潜在能力(IRT等)为匹配变量的方式。不同方式的概念、计算和解释方面都不同。关于各类技巧的评价已有研究也没有得出一致性的推论。在实际中常常须要使用多种方式,对一致性判断为项目功能差别的题目进行重点考察。
(三)低利害测验中的不努力作答剖析
与传统的教育考试不同,教育质量检测中的学业成就测验结果通常不会直接报告给中学生个体,也不会对中学生个体的分班、升学等导致直接影响,因而属于低利害测验。在这些低利害测验中,中学生可能没有足够的动机在整个测验中都保持十分努力的状态,很可能出现一些不努力作答的行为[12]。在现代检测理论中,好多检测模型的构建都默认中学生在作答题目时给与了每道题目足够的努力程度。为此,假如在测验中出现了不努力的行为,这么原有的检测模型就不能处理这些情况,会导致一些有误差的恐怕结果,比如考生的能力值会被高估等[12]。在教育质量检测中,假如这些不努力的行为比列较大,也会对群体的汇总分数导致较大误差[13],从而影响教育质量检测结果的公正公平。为此,在大规模的教育质量检测项目中,越来越多的研究者开始关注测验中不努力作答的影响及辨识。假如才能通过恰当的剖析方式,找到富含较大比列不努力作答的题目,在工具修正或数据剖析的环节加以处理,将会进一步保障教育质量检测的公正性。
已有的研究提出了四类方式辨识不努力作答的行为:自陈量表方式、个人拟合指标、混合IRT模型和基于反应时的方式[12][14]。其中,随着计算机测验的发展,基于反应时的方式得到了极大的发展和应用。这类方式大多通过设定阀值,之后将考生在题目上作答的反应时与阀值比较,判定作答是否属于不努力作答。目前研究较多的方式包括正态阀值方式(NT10)、正确率和反应时的累积分布方式等,这两种方式也被研究者证明表现较好。
三、中国教育质量检测工具公正性保证的具体措施
(一)科学命题是保证公正性的基础
在明晰测验的目的和内容后,根据测验新蓝图进行科学命题是教育质量检测工具开发中至关重要的环节。首先,为了保证工具的公正性,测验的开发团队中应该包括不同背景的专家,即专家的地区、民族等应该尽可能覆盖与测验目标群体一致的范围。比如,在中国基础教育质量检测协同创新中心对我国义务教育语文相关诱因检测工具研制的过程中,命题的团队不仅院校和研究机构的专家学者,还有来自全省各地教育教学一线的教研员和优秀班主任,具有广泛的代表性[15]。通过提高工具研制团队的代表性,可以促使不同背景的专家在命题的同时,考虑到各群体考生的特性、典型的思维方法和作答反应,因而对题目是否会存在误差做出经验性的判定,从而保证工具的公正性。其次,在教育质量检测价值取向上,中国“以县为主”的教育管理体制,东西部之间、城乡之间存在教育不均衡现象[15]。考虑到这种差别,在工具研制阶段,就应该充分考虑到检测对象的异质性,在命题团队的成立、命题人员的培训、命题过程的把控等方面都加大对公正性的监督。诸如,何家军早在2008年就提出了对于中考命题阶段公正性的考虑[5]。诸如,“命题和审题人员应当受过专业培训,对于测验的使用地区可能涉及的公正公平性考量方针和新政,她们要十分熟悉。”但是,这种建议在实际的教育质量检测工具研制阶段是否还能被采纳,履行的程度怎样,又是值得调查和反省的问题。
(二)合理实现等值设计和技巧选用是保证公正性的途径
因为教育质量检测中会普遍应用到矩阵抽样的设计,因而须要使用测验等值的方式对数据进行处理,以保证完成不同题册的考生所得到的能力恐怕结果是可比的。另外,依照教育质量检测的目的,除了要了解测试当初的实际状况,还须要把握质量的变化发展趋势,对不同年份的测评结果进行剖析比较,这也须要用到等值的方式[16]。为保证测验等值的结果确切、可靠,应该采用合理的等值设计,并选用恰当的等值方式。
首先,在等值设计方面,应该在检测工具研制阶段制定科学可行的等值方案。诸如,在进行测验设计时,因为铆测验(不同测验中相同的题目)本身对等值结果有明显的影响,因而应该尽量满足铆测验的相关要求。那些要求包括:铆测验应该包含足够多的题目,起码为测验总题量的20%[7];铆测验应该具有内容代表性,而且难度参数的均值与总测验相等。基于检测学理论,从整体上科学地构架整个教育质量检测工具的测验设计,也是保证工具公正性的重要途径。但是,在实际中,因为缺少相关的检测统计学知识,在测验设计中不考虑等值,而在结果比较中又默认分数可比的现象比比皆是。诸如,假如五年的检测工具中没有共同题,出席测试的群体中也没有子群体同时出席了两个测试,这么虽然检测的目标和内容相同,也不能对三年的整体状况做出比较。又比如,直接将物理测试结果和科学测试结果相比较,也违反了测验等值的前提假定。目前,大部份的国际测评项目大多采用共同题的方式来实现等值的目的。在中国传统考试文化背景下,这些技巧是否合适?怎么更改建立?这种怎样实现五年以上的发展趋势动态剖析?那些都须要更深入的预研究和悉心设计[16]。
其次,在等值方式选用方面,应该基于已有的比较等值方式的研究推论,并结合教育质量检测的等值设计及数据特性,选用适当的方式。比如,在一些国际小型教育质量检测项目(如国际中学生评价项目PISA)中,多采用基于共同题的项目参数等值,另外,就会对预试中发觉的在不同语言或则不同年度间表现差别较大的群体,使用单独恐怕的题目参数。为了确保等值方式的选择愈发符合教育质量检测的实际需求,可以采用模拟研究的方式,基于本次教育质量检测实际的等值设计及数据结构形成数据,对各类等值方式进行比较和评价,因而找到对于某次教育质量检测的实际数据最为确切的等值方式。
(三)基于相关指标修订工具是保证公正性的重点
教育检测学的发展为科学地评价工具公正性提供了可能。结合本文所介绍的项目功能差别剖析和不努力作答剖析等手段,可以对检测工具做出愈发科学、准确的判别。结合这种指标的概念和算法,可以采用先验或后验的方法加以应用。先验的方法主要是指在借助工具即将施测之前,通过分析预试数据在各指标上的特点,发觉可能存在项目功能差别或则容易诱发不努力作答的题目,对其进行删掉或修订。后验的方法主要是指在借助工具即将施测以后,通过相关指标的估算,在后续的数据剖析高考虑有误差的题目并给以处理。比如,可以在最后的剖析中删掉项目功能差别较大的题目,删掉判定为不努力作答的个体作答,也可以在最后检测模型建立高考虑作答努力程度的影响等。目前,我国的教育质量检测主要是采用先验的形式。比如,在研制全省义务教育语文教育质量检测工具时,无论物理测试题,还是问卷题,除专家多轮次初审外,都经过两次以上预测试及修订,确保了所有题目具有良好的检测参数和良好的质量保障[16]。这才能在很大程度上避开出现富含项目功能差别的题目。并且,在实际的检测施行中,因为其具有低利害的特性,会有好多中学生出现不努力作答的行为,这将大大影响结果的确切性,甚至影响地区之间、年度之间比较的推论。为此,在数据搜集以后,通过后验的方法对数据进行清除,并删掉有问题的题目防止入库,总结这类题目的特点以帮助下一次的工具研制,也是须要注重的方面。希望还能通过这种技术手段,进一步保证教育质量检测工具的公正性。
(四)强化教育质量检测工具监控是维护公正性的制度保障
日本的《教育与心理检测标准》和《ETS质量和公正性标准》对我国教育检测工具公正性的监控提供了挺好的借鉴。目前,自2015年《国家义务教育质量检测方案》实施以来,我国早已持续举办了4年的全省义务教育质量检测工作。为了积极响应国家呼吁,全省各地也对举办区域性的教育质量检测做出了积极尝试。但是,因为教育质量检测是一项专业性较强的工作,目前好多地区尚不具备独立开发高质量检测工具,通过标准化流程施行检测等条件。为了严格把控教育质量检测工具的质量关,着力保证检测工具的公正性,有必要在借鉴美国先进经验的基础上,拟定适用于我国的教育质量检测工具公正性标准,作为教育质量检测领域的行业标准。从教育质量检测工具的研制流程到相关的检测学指标等方面,对公正性做出具体规定。比如,可以要求工具研制部门对即将投入使用的工具开具质量报告,报告中应明晰包括富含质性评价和量化指标的对工具公正性审查的结果。对无法出示质量报告或则质量不合格的工具,将不予采用,虽然早已投入使用,其结果也不能得到广泛认可和应用。希望通过这一措施,强化教育质量检测的行业规范,着力保证教育质量检测工具的公正性。
参考文献:
[1]陈晨.基础教育质量检测中的公正性问题:日本NAEP的新政与实践[J].外国中中学教育,2011(2):11-15.
[2],,onin.forand[M].DC:,2014.
[3],.forand[M].DC:,1985.
[4].ETSforand[M].:,2014.
[5]何家军.新课程中考质量评价标准体系研究[D].上海:华东师范学院,2008.
[6]付慧宇.中考试题质量评价体系初探[J].北京师范学院学报(基础教育版),2011(2):70-72.
[7]KOLENMJ,RL.Test,,and[M].3rded.NewYork:,2014:2-3.
[8]汪文义,张华华.统计检测视角下考试公正推进教育公正的对策[J].山东师范学院学报(自然科学版),2017(4):383-393.
[9].ETSforand[M].:,1986.
[10]于媛颖.多种DIF测量方式的比较研究[D].上海:上海语言学院,2004.
[11]张勋,李凌艳,刘红云,等.IRT_Δb法和修正LR法对矩阵采样DIF检验的有效性[J].心理学报,2013(8):921-934.
[12]WISESL.:ScoreofTestData[J].in,2015,(28)3:237-252.
[13]RIOSJA,GUOH,MAOL,etal.ofon-:ToorNot?[J].of,2016,17(1):74-104.
[14]
,AA,K.TheofonIRT[J].of,2015,52(3):339-358.
[15]王烨晖,张岳,杨涛,等.义务教育语文相关诱因检测工具研制的探求与思索[J].语文教育学报,2018(5):12-16,20.