【慕课笔记】教育评测,该如何做是好?

2016-08-01 09:17:34

一提到评测, 人们想到的便是考试。一群人坐在房间里,拿着笔在试卷上勾选选择题的答案。没错,纸笔考试的确是一种评测,但它仅仅是一种评测的方式。评测的本质,是我们用以理解学习者理解程度的方式(how we understand what learners are understanding)。这里的“我们”不仅仅是指教师,还有学生和研究者。

评测的三种类型

形成性测验(formative assessment):当一个测验是主要用来辅助学生的学习时,这个测验就是形成性测验。老师在课堂上的提问,学生的家庭作业,都是形成性测验。形成性测验能让学生检验自己是否真的学懂了知识点。老师也能利用形成性测验了解学生的学习进度,以便进行针对性的教学。形成性测验的难度不会太高,也不会计入学生的最终表现成绩。

总结性测验 (summative assessment):总结性测验是在课程结束后施验,用以评估学生究竟学到了多少东西。期中考试和期末考试都是总结性测验。全国性的高考等考试也都是总结性测验。总结性测验可以检验学生的水平是否达到了某个标准。通常来说,总结性测验的难度比较高。

表现性测验 (performance assessment):表现性测验是指把学习者置于一个模拟环境下,以评判其解决问题的表现。比如让学生设计物理实验,动手操作一个物理实验,然后根据实验数据得出结论。这样就能评判学生在该物理学实验上的表现究竟如何。表现性测验既可以是形成性测验,也可以是总结性测验。

评测真的有效吗?

广义地说,教育领域的评测就是以数字为抽象能力赋值。我们想要以数字的形式来表征学习者的知识量,表征学习者的能力水平。但是,知识量和能力水平并不像身高体重一样,拿尺子和秤就能简单地测量出来。所以我们需要为这些抽象的能力发明一把专用的尺子。在心理测量领域,这些尺子就叫做量表。

我们有抑郁症量表、人格量表、智商量表等等量表。学生在学校里参加的纸笔考试,其实也是一种量表。托福雅思考试,GRE考试等等,也都可以看做量表。但无论是哪种量表,我们都会遇到一个问题,这些发明出来的尺子,真的能有效地丈量我们想要丈量的东西吗?智商测验得分高的人就真的更聪明吗?通过GRE考试的人就真的更擅长做学术研究吗?

在心理测量学中,我们有一个关键概念,叫做效度(Validity)。它是指测量工具能准确测出我们想要测量的东西的程度。完美的测验,效度的值就应该等于1。可在所有的心理测量和教育测量中,都不存在这样完美的测验。效度能达到0.7就已经是非常好的测验了。

或许,我们并不需要完美的评测。日常生活中的变量实在是太多太多,我们无法将之全部纳入考虑中来。评测是我们用以理解学习者学习情况的辅助手段,它并不是唯一的手段。

通过评测来学习

Inq-ITS是一个针对中学生的科学学习平台。学生可以在这个平台上学物理学、生命科学以及地球科学。在这个平台上,学生需要操作一系列的程序,来检验他们提出的科学假设是否正确。例如,改变球的质量会不会改变球在一定距离进行自由落体的速度。

Inq-ITS以一种动画的方式,模拟真实环境下的科学实验。它同时也是对学生的一个评测平台。每次实验过后,都会向学生反馈其假设是否正确。而且记录下来的数据还会反馈给教师。教师可以以此来判断学生是否掌握了某个知识点,掌握程度又有多少。Inq-ITS不仅仅是一个评测学生科学研究能力的平台,它同时也是一个为学生学习科学提供帮助的适应性的智能辅导系统。

科技的发展改变了评测的形态。我们可以利用计算机评测系统对学习者进行适应性的评测,利用大数据为学习者的学习情况作出详细的描绘和评价。教育评测可以以游戏的形式进行,也可以以传统的纸笔测验的形式进行。只要它能实现我们的目标:实现更好的教育。