1.第二章教育考试质量指标效度·效度·难度·区别词。 „可靠性„难度主要是测试的项目。 „决议第 1 节有效性 „1. 可靠性的概念 2. 可靠性系数的类型 3. 信度对于教育测试的意义 „4. 提高效度的途径 1、信度的概念():指考试结果的稳定、可靠程度,又称考试结果是否真实、客观地反映考生的实际水平,可记为rxx 。 具体来说,检验的效度可以从以下三个方面来理解: (1)效度是指测量值与真实值的差异程度 „x=T+E (公式1-1) „x代表测量值,T代表真值(未知,多次检测的测量值的平均值可以作为真值的近似值),E代表偏差。 „E=xT (公式1-2) (1) 效度是指测量值与真实值之间的差异程度„1。 尝试比较以下两次测试结果的有效性(仅一次): „用尺子测量100cm的孩子身高,得到1cm的绝对偏差; 测量身高185cm的运动员,也得得到1cm的绝对偏差。 要比较两次测试结果的有效性,需要查看偏差分数(E)与真实分数(T)的百分比。 该百分比代表实际得分 (x) 的相对偏差。 其估计公式为:相对偏差=。
2、E/T×100%公式(1-3) 将上述两次测试(设为A、B)以及绝对偏差分数和真实分数代入上式,得到:相对偏差(A)= 1/100 ×100%=1%相对偏差(B)=1/185×100%=0.54% 由此可见,措施B的有效性高于措施A的有效性。最大绝对偏差=E/x×100% 式( 1-4) 2、如何衡量一组人或一个人多次的实际测量值与真实值(真实分数)之间的差异? „要区分两组数据哪一个好、哪一个不好,不能仅仅依靠平均值的统计和比较,关键是要确定两组数据与各自平均值的偏差有多大。 为了消除数据容量的影响,我们参考研究加权平均的方法,选取每个误差的平方平均值来描述一组数据与其平均值的偏差,这就是残差。 „根据假设,实际得分的残差应该等于真实得分的残差加上检测偏差的残差。 即: „公式(1-5) σσσ+ 2、如何多次衡量一组人或一个人的测量值与真实值(真分)之间的差异? „那么,有效性(rxx)可以定义为真实分数的残差与真实分数的残差的百分比。 即:式(1-6)式(1-7),可见该值越小,检验的效度越高。 有效值范围为[0,1]。 σσ1σσσr2Eσ示例:针对 5 个人的某种智力诱导。
3、测试结果如表1-1所示,检验测试的有效性。 „表1-1 检测5名中学生的部分成绩 中学生真实成绩和偏差成绩 实际成绩 A18-216B9+++-210 中学生真实成绩和偏差成绩 实际成绩 A18-216B9++++-210 平均值 15015 残差 182.820。 8并包含在表里面。 σ、σ 分别根据 σ=0.86520.82.8=1-σσ1-r7 估计 σ 的残差公式,N)x(x(1)) 代入公式(1 若真实得分残差为未知,则= 0.86520 .818=σσ6) r 代入式(17)估计r6)或(1(2)代入式() 统计是指样本上的各种数字特征。(如样本均值、标准差等);参数一般是各种数值特征(如总体均值、标准差等)。 ❖ 在统计学中,统计量越接近参数,则统计量的可靠性越高。并且要知道统计量和参数 (2) 效度是指统计量和参数之间的接近程度 ❖ 我们不妨将检验的平均值视为均值抽样分布中的平均值,将真实值视为总体平均值(μ )的均值的抽样分布,这样只要得到实际分数分布的标准差即可-。
4、对于测量的标准误差,可以借助区间公式计算测量值与真实值的接近程度,进而估计测试结果的有效性。 (2)效度是指统计量与参数之间的接近程度) 公式(-=) 公式(-= 示例:基于一组人(假设n>30)作为某种智力激励测试的结果,对相关统计量进行如下估计,得到真实分数的置信区间(或真实值的范围)。865.08.20152 . 概率为该区间包含真实得分或真值答案:) = () (则) (区间的概率;计算某一区域真实得分的公式,)根据到总体平均区间(=)(=求检测误差标准;),式()将已知统计量代入公式(解:95.027.1873.1195.027.1873.11P95.067.196.167.196.1P95.096.196.1P267 .1865.018. (3) 效度是指两次重复检验或等效检验之间的相关程度。事物或现象的数量是可以改变的,主要采用相关分析的方法,即估计两个变量。
5.相关系数(rxy)。 „当用相关系数表示效度水平时,相关系数可称为效度系数(lity)。 它是同一考生同一特征的两次考试成绩的相关系数,是衡量考试结果一致性的指标。 3. 信度系数的类型 „ (1) 稳定性系数 „ (2) 等价系数 „ (3) 内部一致性系数 „ (4) 纸质测试效度系数 „ (5) 评分者效度 ( 1) 稳定性系数 (ty) „ 也又称重测效度,是指同一被试(人群)在不同时间、同一量表下两次测试的实际成绩的相关系数。 恐怕稳定性系数的基本程序是: 测验 A1 适当的时间间隔 测试 A2 (a) 稳定性系数 „ 根据数据的性质,可以通过不同的方式估计相关系数。 最常见的是皮尔逊相关系数:) 10-1 (]) ([]) ([公式 为第一次测试的实际分数;Y 为第一次测试的实际分数(1) 稳定性系数 „对 12 名高中生进行四种算术规则的速度测试,记为 X,以考察测试结果的可靠性,3个月后再次进行测试,记分数为Y,询问测试结果是否可靠?„编号1112„。
6. „ΣX=280ΣY=286ΣX2=6594ΣY2=6912ΣXY=6420[])([])([AA解: (1) 之后数据列表,估计式(1-10)所需的各项统计量: ΣX=280ΣY=286ΣX2=6594ΣY2=6912ΣXY=6420 (2)将估计的统计量代入式(1-10):用在估计稳定性时采用重测法测定系数时,应注意的问题: 1、两次测试的时间间隔要合适,且时间间隔尽可能短。 2、应进行两次测试。
7、卷数应相当,即内容范围、题型、题数、难度、差异程度等基本相同。 3. 为了确定两次测试是否等效,还应考察两次测绘结果的平均值和标准差。 4. 重测法适用于速度测试,但不适用于难度测试。 5. 测试要注重提高受试者的积极性。 (2)等价系数(ence) 也称为复制效度(-):是两个数值相等(题目数量、难度、区分度相等)但具体内容不同的量表,在最短时间内的距离内,同一考生两次考试得到的两组相应分数的相关系数。 模型为:11AB测试适当时间间隔 (2)等价系数(ence) „采用A、B两种法语重复测试,对小学五年级的10名中学生进行测试。 考试顺序造成的偏差,其中5名中学生先进行A类考试,休息15分钟后进行B类考试; 而另外5名中学生则先进行B类测试,休息15分钟后再进行A类测试。 10名中学生的A类测试结果记为X,B类测试结果记为Y。该测试的复制效度是多少? 中学生编号 „„(二)等值。
8、一致性系数(ence) 优点: 1. 如果两份试卷在不同时间使用,其效度可以反映不同时间的稳定性和不同试题的一致性; „2. 当两份同时使用时测量平均速度教案中公,可以防止复试信息的一些缺点,例如复试对初试时记忆、练习和效果的影响,间隔期间获得的新知识的影响,以及对初试时复试的影响。的两个测试。 不同环境和受试者不同主观状态的影响,以及训练应对测试的影响等。 (2) 等价系数(ence) „ 缺点: „ 1. 编制两个相同的数据非常困难测试。 如果两个副本太相似,则会重新测试; 等价条件不存在; 2. 两次重复测试可能在某种程度上检测到不同的属性,这会高估测试的有效性; 3. 受试者同时接受两个性质相似的测试,可能会降低完成测试的积极性; 4. 虽然两次重复测试的题目材料不同,但一旦受试者掌握了一定的解题模式,就能举一反三,可能会失去重复的意义。 (3) 内部一致性系数() 也称为同质效度(ty)。 是同一测试量表的两个部分(例如分为质数和奇数项目,或量表的前一部分。
9、上半场和下半场)得分相关系数。 可能有两种方法: 1. Split-:将一个测试分成假定相等且独立的两个部分来评分。 一般以题目的素数为一组,以素数为一组来估计两级相关系数。 最后利用-Brown公式进行校准,得到整个检验的效度系数。 „-Brown 公式为:) 公式(11112„rxy 为两组测试成绩的相关系数,rtt 代表整个测试的效度系数。问题:为什么不直接使用总和偶数题和素数题的分数 估计的相关系数的一部分应该被校准为整个测试的效度系数吗?这是因为测试的宽度(指量表包含的项目数)有对效度的大小有一定的影响,测试时间越长,效度越高,但是使用分半法实际上相当于把整个测试的厚度减少了一半,所以将数据除以得到的效度分成两半必须高于整个测试的有效性。 „示例:有一个由 100 个问题组成的量表,发给 10 名初中生(分数如下表所示),参加一次测试后,考生毕业后将离开学校。 现在如何评估测试结果的有效性? 评分方法:采用半分法对各科目质数题总分进行评分。
10. 59940ΣX=382ΣY=374ΣX2=14624ΣY2=14014ΣXY=14311 解:将相关统计量代入公式(1-10),求相关系数 84.0))((xyr 使用 - Brown公式校准,91.084.0184.0212 校准后,效度系数很大(0.91),说明整个测试的效度很高,需要进行一次测试,然后根据效度系数估算根据每道题的正确回答数(这可以看作是每道题的难度信息),或者根据每个人总分的平均值和标准差测量平均速度教案中公,这有几个公式,其中,rKR为常用。