四、运用教育测量知识进行数据分析与处理
教育测量是对学习能力、学业成绩、兴趣爱好、思想品德以及教育措施上许多问题的数量化测定。测量要具备单位、参照点、量表。教育测量中所使用的量表多以文字试题的形式出现,也有以图形、符号、操作要求形式出现的。
(一)基本概念
1.教育测量
教育测量有广义和狭义之分。从广义上说.教育测量泛指运用测量手段对教育活动所进行的量的测定。它涉及的范围很广。凡是需要并能够测量的与教育有关的活动均在研究之列,如教育投入、教育过程各要素、教育的效果等。从狭义上讲,教育测量专指按一定规则对学生的知识、智能、个性发展、思想品德等所进行的量的测定。通常所提及的多是狭义上的教育测量。
2.教学评价
教育评价是按照一定标准,运用科学可行的方法,对教育活动所进行的价值判断的过程。它包括对教学过程和教学效果的评价,诸如学校、教师的教学工作、课堂教学、教学方法、模式和内容以及学生的学业成就、一般智能发展、个性发展、思想品德状况等评价。
3.测验及其种类
测验是指对通过一定的仪器和试题所引起的受测者的行为样本进行测量的系统程序。教育测量的对象和内容是非常丰富的,测验作为教育测量的主要工具,种类也很繁多,可按不同标准加以分类。按测验的功用分类:(1)学绩测验;(2)能力测验;(3)人格测验。
按测验的目的分类:(1)诊断性测验;(2)形成性测验;(3)终结性测验。
按解释分数和方法分类:(1)常模参照测验
指参照被测群体的实际水平解释分数的测验叫做常模参照测验。群体的平均分数一般可以反映
群体的水平。称为常模。以常模为参照点,将被测个人的成绩与常模比较,并把比较结果所反映出来的差异数量化。作为导出分数。参照常模解释分数,便于比较和选拔工作的进行,它属于相对评价的范畴。例如.在升学考试中,按标准化的要求进行的分数转换就是参照常模得出的。
(2)目标参照测验
参照被测达到目标的程度来解释分数的测验,叫做目标参照测验,也称作标准参照测验。通过与特定的标准进行比较。了解被测的达标程度,这是一种绝对评价方法。例如,毕业考试就是以某一学段的教育目标为标准,衡量学生的达标情况而进行的。
4.测量的要素测量的三要素:
①参照点。分绝对零点和相对零点。教育测量所应用的参照点都是相对零点。
②统一的单位。
③量具(测量工具)。教育测量常用的工具是试卷,而试卷由测题构成,故我们必须高度重视命题的研究。提高试题的质量,这样才能保证测验的可靠性和有效性。
(二)数据整理
在教育测量中,通过各种测验获得大量分数,这些杂乱无章的分数有三个问题:一是看不清它们的分布形态,二是不了解它们的特征和变化规律,三是每个分数表达的意义含混模糊。因此,需要对零乱分散的分数进行整理和分析,以便在此基础上作出解释和评价。
1.分数整理。
(1)顺序排列表顺序排列是简单的整理分数的方法。它是将所有个体的成绩,按高低顺序排列,并且列于表中,称作顺序排列表。这种方法简明清晰,一眼便能看到最高分数和最低分数,而且可以大致了解个体成绩在总体中的位置。
(2)频数分布表
频数分布表是一种反映数据分布情况的统计表。所谓频数是指一群数据在各个数值(或区问)上所出现的数据的个数,也称为次数。每一个频数除以数据的总个数称为频率,或称相对次数。
(3)频数直方图
由频数分布表可以制作频数直方图。方法是:以分数为横轴,频数为纵轴,建立直角坐标系,在横轴上标出各组分数的组中值,频数值等距标在纵轴上;然后以组中值为底边中点,组距为底边,组频数为高作出各矩形.即得频数直方图。
(三)统计数据
1.算术平均数一组数值的总和除以数据的总频数所得的商称为算术平均数,简称平均数。
2.方差
一组数据中,各个数据与平均数之差的平方和的算术平均数称为这组数据的方差。又叫均方差或变异数。用符号或表示。
3.标准差
方差的算术平方根称为标准差。
4.差异系数
标准差较准确地反映了一组分数的离散程度,它与原数据的单位相同,是一种绝对差异量数。在进行不同组间离散程度比较时,适用于单位相同、平均数相近的情况。如果各组数据单位不同,或虽然单位同但平均数相差甚远时,不能直接用标准差比较,这时应使用差异系数。
差异系数是一组数据的标准差与平均数的百分比,用CV表示。
5.标准分数(z分数)
标准分数是以平均分为参照点,标准差为度量单位的分数。它具有重要理论价值和应用价值。按照转换的方式和对分布形态的影响效果,可分为两类:
①不改变分布形态的标准分数
该学生处于优秀学生行列,但如果将他置于全国高考最好的省份,如平均分92.26分,标准差24.10分,则z≈0.529,仅能算中等偏上。
其中,为原始分数,X为参照群体的平均分,S为参照群体的标准差,Z为标准分数。这种标准分数又称Z分数。
6.难度
难度是指试卷(题)的难易程度。一般用试卷(题)的得分率或答对率(P)表示,所以难度事实上是容易度。P值在0~1之间,数值越大,说明试卷(题)越容易。
一般情况下,测验的平均难度接近O.50时,分数趋于正态分布,否则分数分布将出现偏态。就整个测验而言,当平均难度为0.5且题目组问的相关为零的情况下,分数呈正态分布,而难度值越小,则题目越难.低分段人数必然较多。难度值越大,题目越容易,分数将大部分集中在高分区。这样,在分数的分布上,就会呈现出两种不同的偏向,前者为正偏态,后者为负偏态。
7.区分度
区分度是试题对不同考生的知识、能力水平的鉴别程度。如果一个题目的测试结果使水平高的考生答对(得高分).而水平低的考生答错(得低分),它的区分能力就很强。题目的区分度反映了试题这种区分能力的高低。一般认为,区分度的数值达到了0.3,便可以接受;达到了0.3以上为好的题目;在0.4以上为优秀题目:低于0.3的题目,区分能力差。
可见.题目区分度的实质是用以鉴定一个题目有效性的指标,它的高低变化对测验的质量具有深刻的影响。与题目的难度相比,人们更关注题目的区分度的高低,并以此作为筛选和修改试题的主要依据。
试题的区分度的计算比较方便的方法有以下两种:
(1)得分率求差法将受测群体按题目得分的高低排列,取高分人数的27%为一组,他们的得分率记作R;低分人数的27%为另一组,他们的得分率记作,用D表示区分度,则该题的区分度为:
(2)得分求差法
将受测群体按题目得分的高低排列,取高分人数的27%为一组,低分人数的27%为另一组,用D表示区分度。用日表示高分组得分总和,用L表示低分组得分总和,用n表示高分组(分组)人数,表示该题的最高得分,表示该题的最低得分,则:
8.信度
信度是衡量测验分数一致性或可靠性的一个指标,即用一个或一组测验对同一被试群体施测多次。所得结果的一致性的程度,以及测验分数所反映被试真实水平(即真分数)的可靠性程度。
(1)分半相关
将全卷中全部试题按题号或分数适当分半.得到两个平行的“子试卷”,计算这两个子试卷考生得分的相关系数,这样求得的是半个试卷的信度,然后再用斯皮尔曼一布郎(Spearman—Brown)公式校正,得到考试的分半信度系数。一般认为分半信度系数在O.90以上比较合适。这个方法比较适合多数为选择题的试卷。
其中,分半信度系数,表示A、B两份试卷得分的积差相关系数其中,第是第i个受测者先后两次测验所得分数,n是受测人数。
应当注意,在应用上式时,分半的两部分测验须满足在平均数、标准差、分布形态、测题问相关、内容、形式和题数都相似的假设条件。
(2)内部一致性信度
通常采用的是克伦巴赫(Cronbach)的α一系数公式,它适用于非选择题(多重记分)较多的试卷。α-系数为试卷信度的最低限,一般认为其值在0.80以上,考试的信度比较好。
其中,是每个测试题目得分的方差,是整份测验总分的方差。
国家教委考试中心对高考试题分析与评价时,即用分半相关与仅一系数方法求出试卷信度。
9.效度
效度是测验有效性或准确性的指标。由于效度分析可以针对各种要求和运用各种程序。而在特定的条件下,使用不同的分析方法可以得到不同的效度。因此,一个测验可以具有不同的效度指标。当我们讨论一个测验的效度时,只有界定了它的条件,效度才有确切的意义。
对常模参照测验来说.主要有效标关联效度、内容效度和结构效度。
(1)效标关联效度
测验的效标又可称为准则.它是衡量测验效度的参照标准。我们可以用一类标准化测验作为某次测验的效标(如国家级高考、省级各类会考等),用积差相关法计算效度。
(2)内容效度
测验的题目对所要测量的内容具有代表性的程度称作内容效度。它反映测验题目在所要测量的内容范围和教学目标内取样是否充分和确切的问题。主要用于学科成绩测验。内容效度一般不用数量化指标来表示,主要依靠在某种依据的基础上作出逻辑分析。为了提高测验的内容效度。首先要注意界定测验的内容范围.其次要注意系统取样。目前。大多数学科成绩测验的编制者根据教学目标的分类,先拟就测验的蓝图.将各部分内容和教学目标各层次按确定的比重表达出来,然后编制测题。以满足提高内容效度的要求。
(3)结构效度(构造效度)
结构效度是指考试对理论上构造或特质的测量程度。
确定结构效度需三个步骤:建立理论体系(理论结构)并以此出发提出关于某一心理特征的假设;设计和编制测验,并进行实施;用收集证据和逻辑分析的方法来验证与理论假设的相符程度。
由于建立理论和提出假设的困难,操作步骤较为复杂,且没有单一的量化指标来描述有效程度,所以,在一般的考试质量分析中很少采用。
相关推荐:
北京 | 天津 | 上海 | 江苏 | 山东 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
广东 | 河北 | 湖南 | 广西 | 河南 |
海南 | 湖北 | 四川 | 重庆 | 云南 |
贵州 | 西藏 | 新疆 | 陕西 | 山西 |
宁夏 | 甘肃 | 青海 | 辽宁 | 吉林 |
黑龙江 | 内蒙古 |