首页 雷火竞猜正文

乐播投屏,第891期:用于生长评价的学生生长百分等级模型-雷火竞技竞猜平台

admin 雷火竞猜 2019-06-15 182 0

891期:用于生长点评的学生生长百分等级模型

(北京言语大学)

按:本文现已刊登于《教育丈量与点评》杂志2019年第6期。

摘要:21世纪的美国教育历经变革,现在各州遍及选用生长点评模型对学生进行点评。学生生长百分等级模型能够不依赖纵向量表进行生长点评,不包括线性假定和方差齐性假定,具有较大的灵敏性,现已成为美国运用最为广泛的一种生长点评种模型。凭借现代信息技能,依托大型的学生数据库,多维的、动态的生长点评能够向家长、教师、校园和教育行政管理组织供给愈加丰厚的反应信息,对学生的学习和教师教育的改善提出更详细、更有针对性的主张。

2018年3月16日,教育部长陈宝生同志在教育问题专题记者招待会答复记者问题时说:“要改动点评办法,完善学业考试办法,树立本质归纳点评准则,不允许以分数凹凸对学生排名……这次高考变革之后,高中阶段对学生的查核,增加了归纳本质点评这样一个内容。这是十分显着的本质教育办法。”[1]那么,在进行学生本质归纳点评时,咱们能够采纳什么样的点评办法呢?是选用防止学生“掉队”的合格点评,仍是协助学生获得“生长”的生长点评,抑或是一起选用合格点评和生长点评?美国教育变革从小布什“合格模型”到奥巴马“生长模型”的开展,能够给咱们带来一些启示,值得咱们考虑学习。

一、从“合格”到“生长”

1.小布什总统的“一个都不能少”

为了促进教育变革,2001年,美国国会经过了《2001年一个都不能少法案》(No Child Left Behind Act of 2001,简称NCLB)。这今后,美国展开了一场轰轰烈烈的教育变革运动,“一个都不能少”教育变革在法令的维护下稳步推动。

NCLB教育变革最中心的理念是“合格(proficient)”和“问责(accountability)”。合格,便是要求一切学生都要完结规矩的学习使命,到达规矩的常识把握水平缓才能要求。详细的办法是要求各州举办州统考。假如学生在州统考中不能到达要求,呈现“掉队”,就要对校园和教师进行问责。

尽管NCLB在处理学生“掉队”方面获得了必定成效,但也带来了新的问题,包括:给教师和学生都增加了很大压力,考试开端成为校园日常作业的指挥棒;在问责的压力下,许多中小学都不同程度地采纳了“应试”办法;州统考科目在时刻、资源、教师等方面得到加强,其他非统考科目,包括美术、音乐、体育等,则被削弱;为了合格,不少中小学延伸校园上课时刻,放学后补课,减缩学生休息时刻,既增加了学生担负,也增加了教师担负。NCLB的“应试教育”倾向捆绑了教师的创造力,不利于教师的创造性发挥;“应试教育”形成的竞赛性教育环境也不利于优秀学生的自在开展,或许使优秀学生的好奇心遭到伤害。更重要的是,许多学生无法合格。不管怎样下降考试难度,不管将规范定得怎样低,总有一些学生的效果不能合格,乃至与规范要求相差很远。因而,NCLB变革遭到一些教育专家的批判,遭到来自底层教师的反抗。

2.奥巴马总统的“每个学生都要成功”

2015年,经过美国参众两院长时刻评论和两党交流,两院终究经过了新的教育变革法案《每一个学生成功法案》(Every Student Succeeds Act,简称ESSA)。这今后,奥巴马总统正式签署了ESSA法案。这意味着,美国的教育变革进入一个新阶段。

与NCLB比较,ESSA的杰出特色体现在用“合格+生长”的概念完善了NCLB的“合格”概念,不只改动了NCLB法案中联邦政府对校园严厉的查核评级准则,也减轻了学生、教师和校园的压力和担负。在ESSA的贯彻执行过程中,“生长模型(growth model)”已成为美国各州对学生、教师、校园和学区进行教育点评(assessment)和问责(accountability)的首要办法。[2]

二、“生长”的点评与丈量

所谓生长模型,是指一组界说、核算办法和规矩,能够依据学生两个或多个时刻点的体现,做出与学生、班级、教师和校园有关的解说[3]进行生长点评,不只能够更精确地了解学生学习的实践成效(outcome),一起能够更精确、明晰地了解教师、校园对学生效果的前进所实践发生的影响。

生长模型(growth model)点评的对象是在校学生,点评的内容是学习效果,而不是身高、体重、老练、智商、情商,等等。生长模型既点评学生的学习效果随时刻的改变,也点评他在特定集体(全班、全校、全学区、全州、全国)中相对方位的改变(而不只仅是所在方位)。其意图首要是向家长、教师、校园供给更多关于孩子学习状况的信息,以便改善学习和教育,并便于对教师、校园进行问责。

新的“合格+生长”的教育点评模型体现了一种新的教育理念。学习,不只寻求“合格”,更要寻求“生长”。关于一些根底好的学生,完成“合格”并不必定能够完成“生长”;关于一些根底薄弱的学生,即便暂时“合格”有困难,依然能够经过学习获得“生长”。这是一种正视“个别差异(individual difference)”的教育理念。世上没有相同的两片树叶,也没有相同的两个人,一致的规范(standard)很难适用于一切人。生长点评模型体现了人工智能年代的一种个性化学习(individualized learning)的思路。

生长模型中包括依据数学和核算学的数据处理办法,但生长模型所在理的不只仅是数学和核算学问题。在生长点评过程中,点评组织需求考虑杂乱的、常常互相冲突的教育方针,需求考虑学生、教师、当地方针、联邦方针等一系列杂乱的方针要求和分数解说。

现在,运用于美国各州的生长丈量模型首要有七种:(1)增分模型(gain score);(2)轨道模型(Trajectory);(3)分类模型(categorical);(4)残差模型(the residual gain);(5)投射模型(projection);(6)学生生长百分等级模型(student growth percentile,简称SGP模型);(7)增值模型(value added)。七种模型各有利益和缺乏,不同的模型能够对点评成果做出不同的解说,详细挑选哪种模型,需求考虑本身分数解说的不同需求。其间,运用最多的是学生生长百分比模型(SGP),有22个州运用,占一切运用生长模型的州一半以上,包括华盛顿特区、马里兰、科罗拉多、马萨诸塞、俄勒冈、华盛顿州等。[4]下文以SGP模型为例,对点评学生生长的丈量模型进行介绍。

三、学生生长百分等级模型及其运用

1.SGP的缘起

既然是点评生长,就至少需求两次测验。在获得了两次测验的数据之后,咱们应该怎样对“生长”进行点评?

第一种或许,是对原始分进行比较。由于两次测验试卷的难度不同,这种比较并无含义。彻底或许,由于第2次测验的试卷较难,第2次测验的效果低于第一次,这并不能被解说为“后退”。同理,第2次效果高于第一次,也彻底或许是由于第2次测验的试卷较简略,并不必定意味着“生长”。

当然,假如两次测验的试卷经过等值(equating)处理,是能够比较的,也或许做出“生长”的解说。可是,试卷的等值处理难度较大,在许多实践的点评环境中,难以完成。

第二种或许性,是进行名次比较。这种排序比较,既能够是看一论理学生在两次测验中百分等级的改变,也能够看其规范分数(Z分数)的改变。这种办法,当然要优于直接进行原始分比较,可是,也未必合理。处于不同水平的考生,百分等级的改变不必定能够反映出实践的前进程度。相关于百分等级从20上升到25,百分等级从90上升到95或许要更困难。尽管同样是上升了5个百分等级,但后者的“生长”或许更显着。

考虑到原始分办法和排序办法的局限性,Damien Betebeener于2009年提出了SGP办法。Betebeener博士长时刻从事关于美国各州教育生长剖析的教育和研讨,现任职于美国国家教育点评改善中心(National Center for the Improvement of Educational Assessment,NCIEA),曾获得数学和教育丈量两个博士学位。Betebeener开发了依据R言语的SGP数据处理软件——Quantile,凭借Quantile软件,能够很便利地核算出用于生长点评的SGP值。现在,NCIEA向选用SGP模型的美国各州供给便于依据本身需求进行完善的开源(open-source)SGP核算软件包。[5]SGP模型开始被运用于科罗拉多州。因而,SGP模型也被常常称为“科罗拉多模型”。

2.SGP模型

与原始分比较和名次比较不同,SGP是一种依据百分等级回归办法的点评办法。SGP经过核算一论理学生在水平类似的一组学生中相对方位的改变来对“生长”进行点评。假如一论理学生在这个集体中的相对方位上升,就能够以为他获得了生长;假如其在这个集体中的相对方位没有上升,就能够以为他未能完成生长。

SGP模型也被称为正态模型(normative model),由于这个模型假定与考生第一年分数相同的集体在第二年所得分数呈正态分布。SGP也被称为条件状况模型(conditional status model)、百分等级渐进合格生长(percentilegrowth trajectories)。图1为对三、四两个年级进行生长点评所得的回归线。

1 三、四两个年级的回归线[3]

假如咱们有学生“初测”和“再测”的效果,咱们就能够在二者之间树立一个线性回归方程,依据“初测”的效果来猜测“再测”的效果。假如一个学生的实践得分高于猜测分数,就能够说他获得了“生长”;相反,假如一个学生的实践得分等于或低于猜测分数,就能够说他未能获得预期的“生长”。这种办法,便是七种常用生长点评模型中的“残差模型”。图1中的实线便是这样的一条回归线。图1的横轴是初测效果,纵轴是依据初测效果猜测得到的再测效果。

这个线性回归模型包括两个假定:线性假定和方差齐性。可是,实践点评实践中,这两个假定常常难以满足,因而,选用这种办法得到的成果有时差错较大。SGP办法不包括这两个假定,具有更灵敏的特色。可是,线性回归能够核算得到一条回归线,SGP分位线回归核算得到的却不是一条回归线,而是99条回归线。图1中的虚线是其间的第50条回归线。

3.SGP的核算

在SGP的核算过程中,点评人员将学生当年的效果与在前一年测验中获得相同效果的集体进行比较。这个前一年测验效果类似的集体,被称为“学术同伴(academic peers)”。依据当年效果核算得到的这位学生在“学术同伴”中的百分等级(percentile rank),便是SGP分数,即他在1~99百分等级序列中所在方位。SGP分数表达为百分等级,其分数规模是1~99。假如一论理学生的SGP是80,那么,意味着在这个以“初度测验”界说的“学术同伴”中,有80%的学生效果等于或低于这论理学生。假如百分等级高于50,就显现这个学生一年来有所“生长”;假如百分等级低于50,就显现这个学生的“生长”效果不抱负。

2 SGP核算示意图[3]

在图2中,3年级的初测是一个200~300分的测验。在3年级的测验中,有6位同学获得了220分,还有6位同学获得了280分。这样,就形成了两个不同的“学术同伴”小组。4年级当下的再测是一个250~350分的测验。在两个“学术同伴”小组中,各有一位同学在4年级测验中获得了310分。尽管这两位同学获得了相同的分数,但二者的“生长”水平不同,体现为二者依据3年级的不同效果,别离归于不同的“学术同伴”小组。这两位同学在各自的小组中,具有不同的百分等级。百分等级的核算办法是:

PR=(L+0.5×E)/N×100…………………………………………(1)

其间,PR=Percentile Rank=百分等级;L=低于给定分数的人数;E=等于给定分数的人数;N=总人数。这样,在3年级获得220分的同学在其“学术同伴”小组中的百分等级是:PR=(4+0.5×1)/6×100 = 75;在3年级获得280分的同学在其“学术同伴”小组中的百分等级是:PR=(2+0.5×1)/6×100 ≈ 42。

以上只是是一个最简略、最直观的示意性阐明。实践上,SGP的核算中包括估量99条回归线,从1到99每个百分点各一条。图1中的虚线只是是其间第50百分点的一条,能够了解为在4年级测验中,效果处于各个“学术同伴”的中数方位效果所对应的3年级效果。依据这条虚线,咱们能够推断出一切在4年级测验中处于百分等级中数的学生,在3年级测验中的效果。例如,在3年级初测中获得345分的有3人,处于3人中数方位的一位刚好处于图1的虚线之上。在3年级初测中获得350分的也有3人,3人中4年级效果处于中数方位的一位同学,并未处于图中的虚线之上。这是由于,在核算回归线的过程中,这条回归线(虚线)的方位遭到了3年级测验中其他同学效果的影响,包括获得355分的同学效果的影响。这一成果提示咱们,回归线是依据样本效果核算得到的,只能给出一个近似的猜测。当然,样本越大,猜测差错越小。

依据图1中的虚线,咱们能够知道,3年级时获得345分的同学,他4年级时的效果或许高于350分,也或许低于350分。假如依据线性回归线(实线)进行猜测,其4年级时的效果将低于350分;假如依据分位线回归线(虚线)进行猜测,其4年级时的效果将高于350分。其含义是,假如某位学生4年级时的效果在3年级获得345分的“学术同伴”中处于中数方位,那么他4年级时的效果将高于350分。

4.SGP的点评规范

2009年,科罗拉多州教育部以SGP分数35和65作为点评规范。低于35分的,被视为生长水平低(low);高于65分的,被视为生长水平高(high);处于35和65之间的,被视为生长水平正常(typical)。2009年。马萨诸塞州初等和中等教育部用20、40、60、80等4个点评规范,将SGP分数划分为很低(very low)、低(low)、中等(moderate)、高(high)和很高(very high)等5个水平。

在将SGP分数用于对校园和学区进行集体点评时,点评人员通常将SGP的中数50作为分界线,高于50时被以为高于希望水平,低于50时被以为低于希望水平。

5.SGP的分数解说

SGP具有“生长描绘”和“生长猜测”两种或许的分数解说。当用于不同的分数解说时,点评人员需求选用不同的核算办法。

“生长描绘”要答复的问题是:一个学生在“期初测验”效果类似的“学术同伴”小组中,其“期末测验”效果处于百分等级1~99的什么方位,是高于平均水平(大于50),仍是低于平均水平(小于50)。

“生长猜测”要答复的问题是:假如一个学生坚持现在的生长状况,在未来的某个时刻(例如4年级),他的测验分数将会是多少?也便是说,点评人员需求关于未来时刻点的测验分数做出“满足”或“不满足”的点评。为此,点评人员需求将分数与一个既定的“规范(standard)”进行比较。这样,“生长猜测”要答复的问题也能够表述为:为了在未来给定时刻到合格准,这论理学生的SGP需求到达多少?

在对学生的生长进行猜测方面,SGP与7种常用生长点评模型中的“轨道模型”具有类似之处,都是依据两次测验的成果外推未来某一时刻学生的体现,都是假定学生的生长坚持一种不变的“轨道”。不同的是,轨道模型选用的是线性回归,其假定是学生各个不同学年的生长速度坚持不变;SGP选用的是分位数回归,其假定是学生在“学术同伴”中的相对方位,在各个学年坚持不变。

此外,SGP与7种常用生长点评模型中的“残差模型”相同,同归于条件状况(conditional status)丈量,归于关于丈量成果的常模参照解说。也便是说,SGP的分数解说遭到常模参照集体(即学术同伴)的影响,因而,不能对SGP的成果做出规范参照的解说。

在实践的运用中,为了更便利学生、教师和校长的了解,点评组织能够将SGP转化为非专业人员更了解的分数陈述系统。例如,新泽西州教育部就将SGP转化成一个1~4等级的等级鉴定分数系统。表1是新泽西州所运用的SGP与等级鉴定分数之间的换算。

1 新泽西州所运用的SGP与等级鉴定分数之间的分数转化[6]

当SGP被用于生长猜测时,例如,猜测3年级学生在4年级时的体现,点评人员通常会运用往届学生的历史数据以回归办法树立猜测方程,依据猜测方程来猜测一论理学生或一个集体的开展是否“在轨”,是否能够在方针时刻点到达预期方针。

3 SGP生长轨道示意图[3]

图3是一位学生3~6年级的生长轨道及对其7年级时学习体现的猜测。这是一位6年级学生,他的阅览效果是609,就“合格”讲,归于“合格”水平,就“生长”讲,依据他3~5三个年级时的效果,能够核算出他以往几年的SGP分数别离是66、66和90。图3中,关于他7年级生长状况的3种不同猜测,别离是高、正常和低。其间,3种不同生长水平的SGP分界线选用了科罗拉多州的35和65。图3还显现,假如他坚持“高”生长水平,他在7年级时将继续坚持“合格”水平。假如他坚持“正常”的生长水平,他在7年级时就有或许落进“部分合格”的水平。假如他只是到达“低”的生长水平,他在7年级时就或许会落进“不合格”的局势。

6.关于SGP的争辩

2016年6月22日,美国教育丈量研讨的重要组织之一马萨诸塞大学Amherst分校教育学院教育丈量研讨所(Center for EducationalAssessment,University of MassachusettsAmherst)的StephenSireci、Craig Wells和Lisa Keller等3位学者在《研讨所简报》上宣布了一篇题为《为什么要弃用SPG》(“Why We Should AbandonStudent Growth Percentiles”[4])的文章。Sireci是美国教育丈量研讨范畴的重量级人物。文章提出了弃用SPG的6个原因:

(1)SGP并不像人们幻想的那样;

(2)SGP不牢靠;

(3)教育作业者并不了解怎么运用SGP;

(4)没有用度依据支撑SGP的运用;

(5)SGP的运用违背美国教育研讨协会(AERA)等单位公布的《教育和心思测验规范》(以下简称《规范》)[7],违背AERA公布的《关于增值模型的声明》[2][8];

(6)SGP鼓舞将学生与其他学生彼此进行比较,而不是与所教授的特定常识、技能进行比较。

3天今后,6月25日,哈佛大学教育学院的Andrew Ho就做出了回应。[9]Ho是美国“州高档教育官员理事会”(The Council of ChiefState School Officers,简称CCSSO)2013年公布的《生长模型运用者攻略》(A Practitioner’s Guideto Growth Models)[3]一书的两位作者之一。

Ho指出,Sireci等人关于弃用SGP的主张没有技能依据,并不是一篇言之有据的研讨陈述。Ho不赞同Sireci等人对SGP的责备,以为Sireci等人夸张了《规范》在生长点评这一测验研讨新范畴中的效果。《规范》中并未对这一新范畴做出清晰的规矩,这种规矩是Sireci等人强加的。不过,Ho认同Sireci等人关于审慎运用SGP的提示,赞同各个州、各个学区需求在不断研讨和继续堆集依据的根底上,改善和完善生长点评模型的运用。Ho提出了3个一般性主张:

(1)各州和学区在将SGP用于教师和校园问责时,需求留意前进精确性。比较简略的前进精确性的办法包括:下降SGP在问责中所占的权重;选用多年的平均值;运用SGP平均数而不是运用SGP中数。中数叠加了多种差错来历。

(2)各州和学区能够考虑对由丈量差错引起的核算误判进行调整。例如,McCaffrey等人现已在2015年提出了一种经过百分位等级对SGP的随机差错进行校对的办法。[10]

(3)Clauser等人在2016年进行了一项关于SGP外表价值的研讨,发现一些运用者会对SGP分数做出过错的解说。[11]各州和学区应该重视Clauser等人的发现,加强关于SGP运用方面的训练,对SGP成果做出更合理的解说,确保SGP成果的合理运用。

三、总结与考虑

与传统的单维的、静态的合格点评不同,生长点评模型是一种多维的、动态的点评。凭借现代信息技能,依托大型的学生数据库,依据这种多维、动态的点评成果,生长点评模型能够向家长、教师、校园和教育行政管理组织供给愈加丰厚的反应信息,对学习和教育的改善提出更详细、更有针对性的主张。

尽管SGP模型的核算需求5000人以上的样本,假如样本太小,依据“学术同伴”获得的SGP就会不稳定,但不可否认的是,SGP现已成为现在美国运用最广泛的一种生长点评模型,由于它能够不依赖纵向量表进行生长点评,不包括线性假定和方差齐性假定,具有较大的灵敏性。开发牢靠、有用的纵向量表作业量巨大,对等值技能的要求也很高,在我国很难短期内获得显着发展。在这种状况下,SGP分数能够成为生长点评的一个重要参阅要素。

参阅文献:

[1]柴葳,刘博智.尽力让每个孩子都能享有公正而有质量的教育:教育部部长陈宝生在十三届全国人大一次会议记者会上答中外记者问[EB/OL].(2018-03-16)[2018-06-27].http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/moe_1485/201803/t20180319_330463.html.

[2]王晓平,齐森,谢小庆.美国校园“生长丈量”的7种首要办法[J].我国考试,2018(6):21-27.

[3]Castellano,K.E.,Ho,A.D.. Practitioner’s Guide to Growth Models[M]. Washington,DC:CCSSO,2014.

[4]Sireci,S. G.,et.al. Why We Should Abandon Student Growth Percentiles[EB/OL].[2018-06-27].https://www.umass.edu/remp/pdf/CEAResearchBrief-16-1_WhyWeShouldAbandonSGPs.pdf.

[5]Betebenner,D.. Norm-And Criterion-Referenced Student Growth[J].EducationalMeasurement:Issues and Practice,2009,28(4):42-51.

[6]NewJersey Department of Education.Median Student Growth Percentile (mSGP) Conversion Chart[EB/OL].[2018-06-27].https://www.nj.gov/education/AchieveNJ/resources/mSGPConversionChart.pdf.

[7]AmericanEducational Research Association.Standards for Educational and Psychological Testing(7th edition)[M].Washington,DC:AERA,2014

[8]AERAOfficial Documents.AERA Statement on Use of Value-Added Models(VAM)for Evaluation of Educators and EducatorPreparation Programs[J].Educational Researcher,2015,44(8):448-452.

[9]Ho,A.On Student Growth Percentiles,Imposing Standards We Don’t Have:aResponse to Sireci,Wells,and Keller[EB/OL].[2018-06-27].https://scholar.harvard.edu/andrewho/publications/student-growth-percentiles-imposing-standards-we-don%E2%80%99t-have-response-sireci.

[10]McCaffrey,D. F.,Castellano K. E.,Lockwood J. R.The Impact of Measurement Erroron the Accuracy of Individual and Aggregate SGP,Educational Measurement:Issues and Practice,2015,34(1):15-21.

[11]Clauser A.L.,Keller L.A.,Mcdermott K. A..Principals’Uses and Interpretations of StudentGrowth Percentile Data[J].Journal of School Leadership,2016,26(1):6-33.

*************************

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
雷火电竞版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

最近发表

    雷火竞技竞猜平台_csgo雷火电竞_雷火竞猜

    http://colossusescape.com/

    |

    Powered By

    使用手机软件扫描微信二维码

    关注我们可获取更多热点资讯

    雷火电竞出品