如何正式测试正态分布(或其他分布)中的“断裂”


10

在社会科学中经常会出现这样的情况:应该以某种方式分布的变量(通常说来)最终在某些点周围的分布不连续。

例如,如果存在特定的临界值,例如“通过/失败”,并且如果这些措施容易出错,那么此时可能会出现中断。

一个突出的例子(以下引用)是学生标准化考试成绩通常基本上分布在所有地方,除了60%的人(50-60%的质量很少)和60-65%的质量过多。这在教师为自己的学生考试评分的情况下发生。作者调查了教师是否真的在帮助学生通过考试。

毫无疑问,最令人信服的证据来自显示钟形曲线图,该钟形图在针对不同测试的不同截止点附近具有较大的不连续性。但是,您将如何进行统计检验?他们尝试了插值法,然后比较了高于或低于该分数的分数,还对了高于或低于该临界值的5个分数进行了t检验。虽然明智,但这些都是临时的。谁能想到更好的办法?

链接: 学生和学校评估中的规则和自由裁量权:以纽约州摄政官考试为例 http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

测试分数的分布,黑色为可操作的分数,请注意截止值以下的密度急剧下降,高于该值的密度急剧上升


只是为了澄清一下-您是否正在测试一般性缺失,例如正态性,还是在预定点存在不连续性?您的示例就是后者,但是当然可以使用任何拟合优度测试,例如,安德森·达林(Anderson-Darling)或夏皮罗·威尔克(Shapiro-Wilk)进行正态性测试,尽管使用高度特定的替代方法,您可以构建更强大的测试。另外,在上面的图中,您显然有数千个样本。这也很典型吗?
jbowman 2011年

Answers:


6

正确地构筑问题并采用有用的分数概念模型非常重要。

问题

先验地知道诸如55、65和85之类的潜在作弊阈值,与数据无关:它们不必从数据中确定。(因此,这既不是离群值检测问题,也不是分布拟合问题。)测试应评估证据,证明某些(并非全部)得分刚好低于这些阈值的分数已移至那些阈值(或可能刚刚超过这些阈值)。

概念模型

对于概念模型,至关重要的是要了解分数不太可能具有正态分布(也不会具有任何其他易于参数化的分布)。在已发布的示例以及原始报告中的所有其他示例中,这一点都非常清楚。这些分数代表了各种学校。即使任何学校的分配正常(不正常),混合也不太可能正常。

一种简单的方法是接受真实的分数分布:除了这种特殊形式的作弊外,还会报告分数分布 因此,这是一个非参数设置。这似乎太广泛了,但是在实际数据中可以预期或观察到分数分布的一些特征:

  1. 分数,和的计数将紧密相关,即。i1ii+11i99

  2. 这些计数的变化会围绕分数分布的某些理想平滑版本进行。这些变化的大小通常等于计数的平方根。

  3. 相对于阈值作弊不会影响任何分数的计数。其效果与每个分数的计数成正比(受到“欺骗”影响的“处于危险中”的学生人数)。对于低于此阈值的分数,计数将减少并将该数量加到。Ç titic(i)δ(ti)c(i)t(i)

  4. 变化量随着分数与阈值之间的距离而减小:是的递减函数。δ(i)i=1,2,

给定阈值,零假设(不作弊)是,这意味着等于。替代方法是。δ tδ(1)=0δ0δ(1)>0

构建测试

使用什么测试统计数据?根据这些假设,(a)效果是计数中的累加值;(b)最大值将在阈值附近发生。这表示查看计数的第一差。进一步的考虑建议进一步:在替代假设下,随着分数从下面逐渐接近阈值,我们期望看到一系列逐渐降低的计数,然后(i)出现较大的正变化,然后(ii)a在处有很大的负变化。为了最大程度地发挥测试的力量,让我们来看第二点差异,i t t t + 1c(i)=c(i+1)c(i)ittt+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

因为在它将结合较大的负下降和较大的正上升的负值,从而扩大了作弊效果。i=t1c(t+1)c(t)c(t)c(t1)

我要假设-并且可以检查得出-接近阈值的计数的序列相关性很小。(其他地方的串行相关无关。)这意味着的方差大约是c(t1)=c(t+1)2c(t)+c(t1)

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

我以前建议对所有都使用(也可以检查的东西)。何处var(c(i))c(i)i

z=c(t1)/c(t+1)+4c(t)+c(t1)

应该大约有单位方差。对于得分较高的人群(发布的人数看起来大约为20,000),我们也可以期望正态分布也差不多。由于我们期望一个很高的负值来指示作弊模式,因此我们很容易获得大小为的测试:为标准正态分布的cdf 写,拒绝在阈值处没有作弊的假设。c(t1)αΦtΦ(z)<α

例如,考虑从三个正态分布的混合得出的真实测试分数集:

真实分数直方图

为此,我在由定义的阈值处应用了作弊时间表。这几乎使所有作弊都集中在65以下的一两个分数上:t=65δ(i)=exp(2i)

作弊后分数的直方图

为了了解测试的作用,我为每个分数(不只是计算了,并将其与分数相对应:zt

Z图

(实际上,为避免小计数带来麻烦,我首先将0到100的每个计数加1,以计算的分母。)z

接近65的波动是显而易见的,所有其他波动的趋势在大小上约为1,与该测试的假设一致。测试统计量为,相应的p值,这是非常显着的结果。与问题本身中的数字进行视觉比较表明,该测试将返回至少与p一样小的p值。z=4.19Φ(z)=0.0000136

(不过请注意,测试本身并未使用此图,该图用于说明思想。该测试查看阈值处的图值,除此之外没有其他地方。不过,制作此类图将是一种很好的做法确认测试统计信息确实确实将预期阈值选作作弊位点,并且所有其他分数均未发生此类变化。在这里,我们看到,在所有其他分数中,波动范围约为-2和2,但很少也请注意,为了计算,实际上不需要计算此图中的值的标准偏差,从而避免了与欺诈效应相关的问题,这些欺诈效应会放大多个位置的波动。)z

当将此测试应用于多个阈值时,Bonferroni调整测试大小将是明智的。同时应用于多个测试时进行其他调整也是一个好主意。

评价

在实际数据上进行测试之前,不能认真建议使用此过程。一个好的方法是为一个测试取得分数,并以非关键分数作为阈值。据推测,这种阈值尚未受到这种形式的欺骗。根据该概念模型模拟作弊并研究的模拟分布。这将指示(a)p值是否准确,以及(b)测试的能力以表明模拟的作弊形式。确实,人们可以对正在评估的数据进行这种模拟研究从而提供一种极其有效的方式来测试测试是否合适以及其实际功效。因为检验统计量zz 如此简单,仿真将是切实可行的,并且可以快速执行。


由于的期望值(近似)与分布的二阶导数成正比,因此该测试需要稍作调整。在该示例中,阈值接近于模式,该二阶导数接近于零,因此没有问题,但是对于高曲率区域(在模拟数据中约为70或90)的阈值,调整可能很重要。如果有机会,我将相应地编辑此答案。z
ub

1

我建议拟合一个模型,该模型可以明确预测下降幅度,然后表明与朴素的模型相比,该模型对数据的拟合更好。

您需要两个组件:

  • 分数的初始分布
  • 当分数低于阈值时重新检查(诚实或不诚实)分数的过程。

一个单一阈值(值)的可能模型如下: 其中t

pfinal(s)=pinitial(s)pinitial(s)m(st)+δ(s=t)s=0t1pinitial(s)m(st),
  • pfinal(s) -最终分数的概率分布,
  • pinitial(s) -如果没有阈值,则概率分布,
  • m(st) -操纵得分通过得分的概率,st
  • δ(s=t)是Kronecker增量,即如果,否则为0。s=t

通常,您不能将分数提高太多。我会怀疑指数衰减,其中是重新检查(操纵)分数的比例。m(st)aqtsa

作为初始分布,您可以尝试使用泊松分布或高斯分布。当然,理想的情况是进行相同的测试,但是对于一组教师提供阈值,而对于另一组教师,则没有阈值。

如果阈值更多,则可以应用相同的公式,但对每个进行校正。也许也将有所不同(例如,失败通过之间的差异比两个通过等级之间的差异更重要)。tiai

笔记:

  • 有时如果不及格,则有重新检查考试的程序。然后,很难说出哪些实例是诚实的,哪些不是。
  • m(st)肯定取决于测试类型。例如,如果存在未解决的问题,那么某些答案可能会模棱两可,并且答案的数量取决于(因此,对于低分者,得分可能会更容易提高)。而对于封闭式测试,正确答案和错误答案的数量应该几乎没有差异。s
  • 有时,“校正后”的得分可能会高于而不是理想化的可能会有所不同。tδ(s=t)

我不确定这是否能回答我的确切问题。在这种情况下,我们无法重新检查任何考试。观察到的只是最终分数的分布。分布大多是正常的。除了在我们怀疑可能会操纵的某个临界点附近,法线会出现断裂。如果零值是曲线在那时将是“平滑的”,那么我们如何针对它是“
凹凸不平的

我认为我轻描淡写了这个问题。我的观点是:拟合高斯(2个参数)并计算,然后拟合(高斯2个参数+阈值(t + 1)个参数)并计算其。计算平滑度(例如,以)可能很有趣,但是检查基础假设等非常重要(例如,对于题为2分的大量问题的测试,可能会有相当高的“初始”锯齿度。如果人们可以访问原始数据(即所有答案,不仅是总成绩),那么还有更大的测试空间……X2pfinalX2s=099|p(s+1)p(s)|2
Piotr Migdal,

1

我会将这个问题分为两个子问题:

  • 估计分布的参数以适合数据
  • 使用拟合分布执行离群值检测

解决子问题的方法有很多种。

在我看来,如果泊松分布是独立且相同地分布(iid),则该数据将适合该数据,我们当然认为不是。如果我们天真地尝试估计分布的参数,那么我们将受到异常值的影响。解决此问题的两种可能方法是使用稳健回归技术或启发式方法(如交叉验证)。

对于离群值检测,仍然有许多方法。最简单的方法是使用我们在阶段1中拟合的分布的置信区间。其他方法包括自举方法和蒙特卡洛方法。

尽管这不会告诉您分布中存在“跳跃”,但它会告诉您是否有超出样本量预期的异常值。

一种更复杂的方法是为数据构造各种模型(例如复合分布),并使​​用某种模型比较方法(AIC / BIC)来确定哪种模型最适合数据。但是,如果您只是在寻找“与预期分布的偏差”,那么这似乎是过大了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.