【慕课笔记】教育评测，该如何做是好？

一提到评测，人们想到的便是考试。一群人坐在房间里，拿着笔在试卷上勾选选择题的答案。没错，纸笔考试的确是一种评测，但它仅仅是一种评测的方式。评测的本质，是我们用以理解学习者理解程度的方式（how we understand what learners are understanding）。这里的“我们”不仅仅是指教师，还有学生和研究者。

评测的三种类型

形成性测验（formative assessment）：当一个测验是主要用来辅助学生的学习时，这个测验就是形成性测验。老师在课堂上的提问，学生的家庭作业，都是形成性测验。形成性测验能让学生检验自己是否真的学懂了知识点。老师也能利用形成性测验了解学生的学习进度，以便进行针对性的教学。形成性测验的难度不会太高，也不会计入学生的最终表现成绩。

总结性测验（summative assessment）：总结性测验是在课程结束后施验，用以评估学生究竟学到了多少东西。期中考试和期末考试都是总结性测验。全国性的高考等考试也都是总结性测验。总结性测验可以检验学生的水平是否达到了某个标准。通常来说，总结性测验的难度比较高。

表现性测验（performance assessment）：表现性测验是指把学习者置于一个模拟环境下，以评判其解决问题的表现。比如让学生设计物理实验，动手操作一个物理实验，然后根据实验数据得出结论。这样就能评判学生在该物理学实验上的表现究竟如何。表现性测验既可以是形成性测验，也可以是总结性测验。

评测真的有效吗？

广义地说，教育领域的评测就是以数字为抽象能力赋值。我们想要以数字的形式来表征学习者的知识量，表征学习者的能力水平。但是，知识量和能力水平并不像身高体重一样，拿尺子和秤就能简单地测量出来。所以我们需要为这些抽象的能力发明一把专用的尺子。在心理测量领域，这些尺子就叫做量表。

我们有抑郁症量表、人格量表、智商量表等等量表。学生在学校里参加的纸笔考试，其实也是一种量表。托福雅思考试，GRE考试等等，也都可以看做量表。但无论是哪种量表，我们都会遇到一个问题，这些发明出来的尺子，真的能有效地丈量我们想要丈量的东西吗？智商测验得分高的人就真的更聪明吗？通过GRE考试的人就真的更擅长做学术研究吗？

在心理测量学中，我们有一个关键概念，叫做效度（Validity）。它是指测量工具能准确测出我们想要测量的东西的程度。完美的测验，效度的值就应该等于1。可在所有的心理测量.测量中，都不存在这样完美的测验。效度能达到0.7就已经是非常好的测验了。

或许，我们并不需要完美的评测。日常生活中的变量实在是太多太多，我们无法将之全部纳入考虑中来。评测是我们用以理解学习者学习情况的辅助手段，它并不是唯一的手段。

通过评测来学习

Inq-ITS是一个针对中学生的科学学习平台。学生可以在这个平台上学物理学、生命科学以及地球科学。在这个平台上，学生需要操作一系列的程序，来检验他们提出的科学假设是否正确。例如，改变球的质量会不会改变球在一定距离进行自由落体的速度。

Inq-ITS以一种动画的方式，模拟真实环境下的科学实验。它同时也是对学生的一个评测平台。每次实验过后，都会向学生反馈其假设是否正确。而且记录下来的数据还会反馈给教师。教师可以以此来判断学生是否掌握了某个知识点，掌握程度又有多少。Inq-ITS不仅仅是一个评测学生科学研究能力的平台，它同时也是一个为学生学习科学提供帮助的适应性的智能辅导系统。

科技的发展改变了评测的形态。我们可以利用计算机评测系统对学习者进行适应性的评测，利用大数据为学习者的学习情况作出详细的描绘和评价。教育评测可以以游戏的形式进行，也可以以传统的纸笔测验的形式进行。只要它能实现我们的目标：实现更好的教育。

mooc慕课 — 【慕课笔记】教育评测，该如何做是好？

评测的三种类型

评测真的有效吗？

通过评测来学习

其他用户都在看

当日推荐

相关问答