第二节 教学测量与评价的方法和技术
与教学目标相一致,教学评价也应包括认知、情感和技能三个方面。对于认知和技能领域的学业成就,最常用的教学评价手段是标准化成就测验和教师自编测验。而对于情感以及道德行为表现则常常采用非测验性的评价手段,如案卷分析、观察、问卷量表以及谈话等。当然,这些非测验性的评价手段也可作为学业成就评价的补充。
一、标准化成就测验
(一)标准化成就测验的含义及特点
标准化成就测验是指由专家或学者们所编制的适用于大规模范围内评定个体学业成就水平的测验。这种测验的命题、施测、评分和解释,都有一定的标准或规定。由于测验条件的标准化,测验的结果比较客观一致,适用的范围和时限也较宽广。其特点大致为:测验是由专门机构或专家学者按一定测验理论和技术,根据全国或某一地区所有学校的共同教育目标来编制的。所有受试人所做的试题、时限等施测条件相同,计分手段和分数的解释也完全相同。
(二)标准化成就测验的优越性
第一,客观性。在大多数情境下,标准化测验是一种比教师发展出的测验更加客观的测量工具。第二,计划性。专家在编制标准化测验时,已经考虑到所需的时间和经费,因此标准化测验比大部分的课堂测验更有计划性。第三,可比性。标准化测验由于具有统一的参照标准,使得不同考试者的分数具有可比性。
(三)标准化测验的局限性
第一,与学校课程之间的关系很不协调。在我国,每个地区的教学状况还存在着一定的差距,一个年级或地区的教学内容可能不同于另一个地区。因此,可能不少地区学生所学到的内容与标准化样本所学的东西有差异。这就要求教师在选用标准化测验前,仔细查阅内容效度,使得测验的目标与评价的目的相匹配。第二,测验结果的不当使用,我们通常利用标准化成就和能力测验对学生分类和贴标签,对个体造成了不良影响。它们的使用对得低分的学生伤害尤大。
二、教师自编测验
(一)自编测验的含义与特点
教师自编测验是由教师根据具体的教学目标、教材内容和测验目的,自己编制的测验,是为特定的教学服务的。教师自编测验通常用于测量学生的学习状况,而标准化成就测验则用来判断学生与常模相比时所处的水平。
(二)测验前的计划
第一,确定测验的目的。
第二,确定测验要考查的学习结果。
第三,列出测验要包括的课程内容。
第四,写下考试计划或细目表。细目表是将考试具体化的最重要的工具,使得测验能够与教学的目标和内容保持一致。细目表的形式是两维表,一般纵栏表示学习结果,横栏表示课程的内容或范围。中间的栏目,就是教师根据自己的情况填上在测验中计划测量多大比例的学习结果和课程内容。
第五,针对计划测量的学习结果,选择适合的题型。自编测验包括客观题和主观题两种类型。教师使用哪一种类型的题目是由测验的目的、内容和时间决定的。一般来说,由于这两种题型各有优点和不足,最好加以综合使用。
(三)自编测验的类型
1.客观题
客观题具有良好的结构,对学生的反应限制较多。学生的回答只有对、错之分,因此教师评分也就只可能是得分或失分。这类题目包括选择题、是非题、匹配题和填空题等。
(1)选择题。选择题是由题干和两个或更多的选项组成的。题干可以是直接提问或者以不完整的名字形式出现,目的是为了设置问题情境。而选项则提供可供选择的答案,包括一个正确答案和若干具有干扰性的错误项或迷惑项。学生的任务就是阅读题目,再从一系列选项中挑选出正确的项目。
教师在出题时,要综合考虑题干和选项,使整个题目清楚明了。选项的数量一般没有统一的规定,教师可以随意确定选项的个数,大多是4~5个,这样可避免学生猜测答案。所有的题目也可以安排各自不同数量的选项。良好的选择题,题干应该明确简单,而选项又深具迷惑性。
经过精心设计的题干和选项,可以测查目标系列中的高于知识水平的任何等级。此外,选择题还有一种常用变式,选项中有一至多个正确答案,即通常被称为多选题。这种题型的难度大大高于常规的选择题(单选题),可以有效地检查高一级的学习成果,在测验中使用较广。
(2)是非题。是非题与选择题有一点相似之处,就是学生需要识别、选择出正确答案。常用的形式是,陈述一句话要求学生判断对错或是非。是非题可用于测量不同水平的教学目标。
是非题形式简单,能够在一份试卷内覆盖大量的内容。教师在评判时也较客观,计分简便省时。但是,一个重要的问题是:学生只有两种选择——对或错,所以即使在完全猜测的情况下,他们也有50%的机会选择到正确答案。一种可行的办法是,增加题目的数量。由于题量大,对题目总体的取样较全面,学生很难只凭猜测获得高分。
(3)匹配题。匹配题是另一种可提供多种选择的考试形式。通常,题目包括两列词句,一列是问题选项,一列是反应选项。学生根据题意按照某种关系将左右的项目连接起来。匹配题形式简单,能够有效地测量学生对知识联系的掌握情况,且易于计分。但是,它只能用于测查彼此存在着简单关系的知识。
(4)填空题。填空题是呈现给学生一句或一段不完整的话或者直接提问,要求学生简要做答。当教师的目的是考查学生对知识的回忆时,填空题十分有用,它可将学生猜测的可能性降到最小。如果经过精心设计,也可以通过填空题来考查学生对知识的记忆和理解,以及推理和判断能力。填空题的问题在于,学生的答案各不相同甚至还会出现出人意料的答案,学生的答案还会受笔迹、用词等无关因素的影响。
2.主观题
主观题则要求学生自己组织材料,并采用合适的方式表达陈述出来。这类题型包括论文题及问题解决题。教师在评分时,对学生的回答需要给出不同量的分值,而不仅仅是满分或零分。
(1)论文题。论文题是指要求学生用文字论述方式阐述相关观点的题目,回答字数可以从几段到几大页不等。一般较常使用的有两种类型,有限制的问答题和开放式论文。有限制的问答题,是指教师对回答的内容和长度都有规定,如平时测验中的简答题等。例如,说明戊戌政变中的重要人物、事情经过以及结果。开放式论文,则允许学生在内容上可以自由选材、自由发挥,而且篇幅较长。论文题可以测验知识、理解或运用水平,也可考查学生的分析、综合、类比和评估知识的能力,还可考查学生组织信息或表达陈述某项意见的能力。
使用论文题也有不妥之处。首先,学生回答论文题需要花费很多时间。因此,在一份试卷里只能出现少量的题目,对课程内容的取样也就非常有限。通过增加小的论文题(即简答题或问答题),可以避免这个问题。其次,对于熟悉自己学生的教师,在判卷时很难做到客观,导致信度较低。在评分时,经常出现一种现象一一晕轮效应,即教师对学生的总体印象影响到对论文题目的评价。因为平时的接触或者前面几道题解答的情况,使得教师对学生形成了某种印象,从而影响到对之后题目的评判。
(2)问题解决题。问题解决题是向学生提供一定的问题情境和目标情境,要求学生通过对知识进行组织、选择和运用等复杂的程序来解决问题。通常有两种形式,一种是间接测验,与前面提到的几种测验形式一样,是采用纸笔测验来评价学生的学业成就或能力。学生在完成时,通常必须写出若干步骤或过程,以展现他的思路。评分时,按照步骤计分,如果缺少某些步骤就不能得分。平时的理科考试多出这种类型的问题解决题。
问题解决题的另一种方式则是直接测验。例如,为了考查学生学习本节内容的情况,让学生编制一份测验小学两步应用题的测题。由于它考查了学生处理实际问题的能力,所以有时我们又把这种形式叫做操作评价。教师可以要求学生设想一个可以解决学校垃圾处理问题的方案(要求只写可行性措施,不超过500字),或者要求学生测量学校操场的面积。操作评价对于考查高级思维技能十分有效,但是往往费时费钱,而且主观性较大,并且效度也经常受到质疑。
(四)有效自编测验的特征
1.信度
信度是指测验的可靠性,即多次测验分数的稳定、一致的程度。它既包括在时间上的一致性,也包括内容和不同评分者之间的一致性。例如,采用性格量表测量学生,他们在这一个月的结果,如果大致等于六个月前和三个月前的得分,那么我们就认为测验
的信度较高。
2.效度
效度是指测量的准确性,即一个测验能够测量出其所要测量的东西的程度。效度是一个相对概念,任何一种测量工具只是对一定的目的来说才是有效的。效度考虑的问题是:测验测量什么?测验对测量目标的测量精确性和真实性有多大?效度的重要性大于信度,因为一个低效度的测验,即使具有很好的信度,也不能获得有用的资料。例如,用磅秤称量体重,连续多次都会得到相同的值,而且准确地反映了个体的重量,那么信度和效度都很高;但是如果使用它来测量身高,虽然测量值之问总是保持一致的,即信度很好,但是并没有说明个体的高度,因而不是适宜的测量身高的工具。
3.区分度
区分度是指测验项目对所测量属性或品质的区分程度或鉴别能力。它是根据学生对测验项目的反应与某种参照标准之间的关系来估计的。例如,可用年级或教师评定的等级作标准,看测验的项目能否把不同年级或不同水平的学生区分开来。
(五)自编测验的常见错误
第一,教师过于相信自己的主观判断而忽视测验的信度和效度指标。
第二,许多教师对测验准备的重要性缺乏足够的认识,对测验准备不够充分,甚至没有准备。
第三,许多教师编制的测验太简单,题量太小。
总之,测验准备不充分、题量小、相信主观判断,都会导致过分强调无关细节,从而忽略本章提到的那些重要的原则或注意事项。
三、非测验的评价技术
在实际教育中,前述纸笔测验并不是收集资料的唯一途径。教师还使用了许多非测验的评价技术,尤其是情感领域的教学评价更需要采用非纸笔测验。情感教学不属于任何一个学科,其效果可能产生在任何一种认知学科的教学过程中。
(一)案卷分析
案卷分析是一种常用的评价策略,其内容主要是按照一定标准收集起来的学生认知活动的成果。例如,学生的家庭作业或课堂练习、论文、日记、手工制作的模型、绘画等各种作品。对学生的作品进行考察分析,并形成某种判断和决策的过程就是案卷分析。
(二)观察
通过教学过程中的非正式观察,教师也能够搜集到大量的关于学生学业成就的信息。这种观察不只限于智能的发展,还包括学生生理、社会和情绪的发展。为了确保观察的有效性,教师应注意自然地对学生进行全面系统的观察,然后客观、详细地记录下观察信息。
1.行为检查单
教师可以使用检查单来记录其在教学中的观察结果。检查单一般包括一系列教师认为重要的目标行为,通常采用有/无的方式记录,但有时也记录下次数。行为检查单使用简便易行,对于教师非常有用。尤其在课堂上,教师可以利用检查单及时记下所观察到的行为,便于指导和帮助学生。如果行为是属于某一个好一坏连续体上的某一点,那么更适宜的方式是等级评价量表。当观察目标是具体、特定的经过了明确界定的行为时,检查单非常有效。
2.轶事记录
轶事记录是描述所观察的事件。与检查单相比,轶事记录可提供比较详细的信息,这些记录一般是按照发生时间排列的。教师可以在事先有明确的观察目标,就某一方面的行为进行记录;也可以没有明确目的,事后再专门分析或考查某一件事,这时教师就需要记下很多资料,甚至包括一些无关信息。轶事记录要求教师纯粹记载下所观察到的内容,而不要掺杂进个人的意见或观点。许多教师在他们的教案或工作日记上,都有轶事记录。但是,轶事记录比较费时,而且也很难排除主观偏见。
3.等级评价量表
等级评价量表对于连续性的行为,可能更为有效。它可用于判断某种行为的发生频率,以及某种操作或活动的质量,使得观察信息被量化。评价量表是一种间接的观察技术,通过量化所观察的信息,可以迅速简便地获得概括化的信息。评价量表和行为检查单有一定关系。二者都要求教师对学生的行为进行判断,可以在观察过程中或结束后使用。但是它们的评价标准不同,检查单只需要做定性的判断,而等级评价量表是做定量的判断。
(三)情感评价
许多时候,教师有必要针对学生的情绪、学习动机、个人观点等进行评价。固然,我们可以借助已有的量表,但是学校也鼓励教师自己编制评价量表。为了获得这类信息,教师可以自行编写开放式问题、问卷等。而在对结果的评价时,教师也需要写一份详细的报告,形式类似于上文的观察报告。
四、教学评价结果的处理与报告
(一)评分
评分时必须以一定的比较标准为依据,评分的标准可分为绝对标准和相对标准两种。绝对标准是以学生所学的课程内容为依据,学生的分数和其他同学的回答情况没有关系。而且绝对标准强调,由于不同学生的学习起点和背景情况的差异,所以他们的学习结果也是不可比较的。它对应的评价方式,是标准参照评价。相对标准是以其他学生的成绩为依据,对应于常模参照评价。相对标准的评价不仅与学生自己的成绩有关,还与其他同学的成绩有关。
在评分过程中,常常存在计分主观性问题,教师往往会受一些无关因素的影响,使得评分的信度较低。因此,评分标准一定要与测验的编制计划和实际的编制工作保持连续性,确保整个评价活动是根据统一的标准进行的。这样,评价结果才可能是教师所预期的信息,具有较高的信度,能够对教学活动发挥积极作用。
合理的评分过程应包括如下步骤:第一,搜集有关学生的信息,信息可以来源于不同类型、性质的测验,甚至观察的评价方式。例如,教师对学生期末学习成绩的评价,通常是期末考试成绩占70%,平时作业和考试成绩占20%,课堂表现占10%。第二,系统地记录下评价的结果,并随时保持最新的结果。第三,尽量将搜集的资料量化,用数据来表示学生的学习情况。第四,为了把评价的重点放在最终的学习成就,教师需要加大最后测验得分的权重。第五,评价应该以成就为依据,而其他特征的评价,不要和成就的评价混杂起来。
(二)合格与不合格
有些课程采用合格与不合格来评价学生的成就。教师可以根据学生是否完成了每次作业来评价,也有可能根据学生的几次作业情况评分,甚至评分的标准可以是学生的出勤情况。
(三)其他报告方式
除了常用的评分方法,教师还可以使用其他方式来报告评价结果。教师写学生的个人鉴定或定期的综合评价,提供给家长和学生。观察报告也是一种报告评价结果的形式。此外,通过与家长面谈,也可以交流关于学生的学习、行为和态度等方面的资料。
相关推荐:
北京 | 天津 | 上海 | 江苏 | 山东 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
广东 | 河北 | 湖南 | 广西 | 河南 |
海南 | 湖北 | 四川 | 重庆 | 云南 |
贵州 | 西藏 | 新疆 | 陕西 | 山西 |
宁夏 | 甘肃 | 青海 | 辽宁 | 吉林 |
黑龙江 | 内蒙古 |