新闻中的方程式:将多层次模型转换为普通受众


24

纽约时报对用于向纽约市教育工作者提供反馈的“增值”教师评估系统有很长的评论。lede是用于计算分数的等式-无需上下文即可呈现。修辞策略似乎是通过数学恐吓:

替代文字

该文章的全文可在以下网站获得:http : //www.nytimes.com/2011/03/07/education/07winerip.html

作者迈克尔·怀恩里普(Michael Winerip)认为,该方程式的意义超出了马特·达蒙(Matt Damon)以外的任何人的理解能力,更不用说普通教师了:

“艾萨克森女士的3.69预测分数的计算更加令人生畏。它基于32个变量-包括学生是否“在考试前一年保持了年级”,以及学生是否是“在考试前或考试后新来的城市”年。”

这32个变量被插入到一个统计模型中,该模型看起来像是在“善意狩猎”中只有Matt Damon能够解决的方程式之一。

这个过程看起来是透明的,但显然是泥泞的,即使对于像教师,校长和记者(我对此也犹豫不决)这样​​的聪明人来说也是如此。

艾萨克森女士可能有两个常春藤联盟学位,但她迷路了。她说:“我发现这是无法理解的。”

用简单的英语来说,艾萨克森女士对教育部试图告诉她的最好的猜测是:即使她的66名学生中有65名在州考试中获得了熟练的成绩,但她的3分中的3分应该是4分。

但这只是一个猜测。”

您将如何向外行解释该模型?仅供参考,完整的技术报告位于:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

更新:Andrew Gelman在这里提供了他的想法:http : //www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html


1
[0 52]

Answers:


12

这是一种可能性。

传统上很难评估教师的表现。这一困难的一部分是,不同的学生对特定学科的兴趣程度不同。如果给定的学生获得A,这并不一定意味着教学是出色的-而是意味着即使教学质量较差,一个很有才华和兴趣的学生也会尽最大努力取得成功。相反,获得D成绩的学生并不一定意味着教学效果不佳-而是意味着尽管老师尽了最大的努力进行教育和启发,但一个无私的学生却步履维艰。

学生选择(以及学生的兴趣水平)远非随机的事实加剧了这一困难。学校通常强调一个学科(或一组学科)胜过其他学科。例如,一所学校可能会强调技术学科而不是人文学科。这些学校的学生可能对技术领域非常感兴趣,以至于即使有最糟糕的老师,他们也将获得及格分数。因此,通过数学的学生比例并不是教学的好方法-我们希望优秀的老师比那些渴望学习的学生做得更好。相反,这些学生可能对艺术根本不感兴趣。即使是最好的老师也很难期望确保所有学生都获得A。

另一个困难是,并非给定班级的所有成功都直接归因于该班级的老师。相反,成功的原因可能是学校(或整个学区)创造了成就的动力和框架。

考虑到所有这些困难,研究人员创建了一个评估教师“附加值”的模型。本质上,该模型考虑了每个学生的内在特征(总体兴趣水平和学习成功),以及学校和学区对学生成功的贡献,并预测了“平均”所期望的学生成绩在那种环境下教学。然后,该模型将实际成绩与预测成绩进行比较,并在考虑所有其他考虑因素的基础上,决定教学是否适当(好于或差)。尽管该模型对于非数学家而言似乎很复杂,但实际上非常简单和标准。数十年来,数学家一直在使用类似(甚至更复杂)的模型。

总而言之,艾萨克森女士的猜测是正确的。即使她的66名学生中有65名在州考试中获得了熟练的成绩,即使他们的老师是狗,他们的成绩也一样。一个真正的好老师将使这些学生不仅在同一个测试中达到“熟练”的分数,而且实际上获得“良好”的分数。


在这一点上,我可以提到我对模型的一些担忧。例如,模型开发人员声称它解决了评估教学质量方面的一些困难。我有足够的理由相信他们吗?收入较低的社区的预期“区”和“学校”分数将较低。假设某个社区的预期得分为2.5。平均成绩达到3分的教师将获得良好的评价。这可能会促使教师将分数定为3,而不是将分数定为4或5。换句话说,教师将目标定为平庸而不是完美。我们是否希望这种情况发生?最后,尽管该模型在数学上很简单,但其工作方式与人类直觉的工作方式却大不相同。结果,我们没有明显的方法可以验证或质疑模型的 的决定。艾萨克森女士的不幸例子说明了这可能导致的结果。我们是否想在如此重要的事情上盲目地依赖计算机?


请注意,这是对外行的解释。在这里,我回避了几个可能引起争议的问题。例如,我不想说低收入人群的学区表现较差,因为这对外行人来说听起来并不好。

另外,我假设目标实际上是对模型进行合理的描述。但我很确定这不是NYT的目标。因此,我认为至少他们的解释不佳的部分原因是故意的FUD。


我可能会将最后一段的第二句改为:“即使她的66名学生中有65名在州考试中得分为'熟练',即使他们的老师很无能,他们也很可能会得分相同。”
韦恩

11

“您的教学分数取决于您的学生与根据

  • 根据预先测试,他们事先知道的内容

  • 我们认为学生可以根据我们对他们个人的了解(他们的“特征”)学习的程度如何,

  • 以及学生在您所在地区,学校和教室中的平均表现(如果您的教室中还有其他老师)。

“换句话说,我们会根据测得的学习量,在考虑到学生的准备和特点以及所有学生在您这样的环境中的典型表现(并利用可用资源)后,对您进行评估。

“通过这种方式,您的分数就可以反映出对学生表现的贡献。我们当然无法知道所有事情:我们知道您拥有独特和特殊的学生,而且您所面对的情况永远不会重复。因此,我们知道这个分数只是不能完美地反映出您的教学水平的评估,但比仅基于后期测试或班级获得的原始考试收益,这是一个更公平,更准确的评估。”


2
注意:请不要将这些想法归因于我!我只是按照要求尽力表达和捍卫所述模型。此模型是否适当,适用,是否合适等是一个单独的问题。
ub

(+1)最后一段很恰当。
chl

2

这里没有什么可理解的。

好吧,那只是一个标准的线性回归模型。它假设学生的分数可以描述为包括学校和教师效率系数在内的几个因素的线性函数-因此它具有线性模型的所有标准问题,主要是它是非线性的一个很好的近似视情况而定,并根据人们可以推断的程度而定,它可能工作得完美无缺或令人尴尬。(但是,应该期望技术代表的作者检查了一下,发现还可以;-))。

但是真正的问题是,这是一种分析工具,因此不应使用这种方法来评估人们的成就-这样(完全不考虑商标是否公平)每个被评估者都试图理解自己的商标(可能是希望)在这种情况下,它只会带来无望的混乱。


3
“这里没有什么可理解的-它只是一个标准的线性回归模型”-teehee ....就像对数学恐惧症的安慰一样。我认为您从未有过为统计专业讲授统计专业本科课程的乐趣,比如说社会学专业,或者是通讯专业的上帝。
fabians 2011年

@fabians这仅证明了我的观点-用数学比计数更复杂的方法与人面对面是这种方法的最大缺陷=]但是我将尝试改写它。

这是有效的批评,尤其是关于假设线性的部分,但它并不能真正回答最初的问题(除非您打算冒犯假想的“外行”)。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.