正确地构筑问题并采用有用的分数概念模型非常重要。
问题
先验地知道诸如55、65和85之类的潜在作弊阈值,与数据无关:它们不必从数据中确定。(因此,这既不是离群值检测问题,也不是分布拟合问题。)测试应评估证据,证明某些(并非全部)得分刚好低于这些阈值的分数已移至那些阈值(或可能刚刚超过这些阈值)。
概念模型
对于概念模型,至关重要的是要了解分数不太可能具有正态分布(也不会具有任何其他易于参数化的分布)。在已发布的示例以及原始报告中的所有其他示例中,这一点都非常清楚。这些分数代表了各种学校。即使任何学校的分配正常(不正常),混合也不太可能正常。
一种简单的方法是接受真实的分数分布:除了这种特殊形式的作弊外,还会报告分数分布。 因此,这是一个非参数设置。这似乎太广泛了,但是在实际数据中可以预期或观察到分数分布的一些特征:
分数,和的计数将紧密相关,即。i−1ii+11≤i≤99
这些计数的变化会围绕分数分布的某些理想平滑版本进行。这些变化的大小通常等于计数的平方根。
相对于阈值作弊不会影响任何分数的计数。其效果与每个分数的计数成正比(受到“欺骗”影响的“处于危险中”的学生人数)。对于低于此阈值的分数,计数将减少并将该数量加到。我≥ 吨我Ç (ti≥tic(i)δ(t−i)c(i)t(i)
变化量随着分数与阈值之间的距离而减小:是的递减函数。δ(i)i=1,2,…
给定阈值,零假设(不作弊)是,这意味着等于。替代方法是。δ (tδ(1)=0δ0δ(1)>0
构建测试
使用什么测试统计数据?根据这些假设,(a)效果是计数中的累加值;(b)最大值将在阈值附近发生。这表示查看计数的第一差。进一步的考虑建议进一步:在替代假设下,随着分数从下面逐渐接近阈值,我们期望看到一系列逐渐降低的计数,然后(i)出现较大的正变化,然后(ii)a在处有很大的负变化。为了最大程度地发挥测试的力量,让我们来看第二点差异,i t t t + 1c′(i)=c(i+1)−c(i)ittt+1
c′′(i)=c′(i+1)−c′(i)=c(i+2)−2c(i+1)+c(i),
因为在它将结合较大的负下降和较大的正上升的负值,从而扩大了作弊效果。i=t−1c(t+1)−c(t)c(t)−c(t−1)
我要假设-并且可以检查得出-接近阈值的计数的序列相关性很小。(其他地方的串行相关无关。)这意味着的方差大约是c′′(t−1)=c(t+1)−2c(t)+c(t−1)
var(c′′(t−1))≈var(c(t+1))+(−2)2var(c(t))+var(c(t−1)).
我以前建议对所有都使用(也可以检查的东西)。何处var(c(i))≈c(i)i
z=c′′(t−1)/c(t+1)+4c(t)+c(t−1)−−−−−−−−−−−−−−−−−−−−√
应该大约有单位方差。对于得分较高的人群(发布的人数看起来大约为20,000),我们也可以期望正态分布也差不多。由于我们期望一个很高的负值来指示作弊模式,因此我们很容易获得大小为的测试:为标准正态分布的cdf 写,拒绝当在阈值处没有作弊的假设。。c′′(t−1)αΦtΦ(z)<α
例
例如,考虑从三个正态分布的混合得出的真实测试分数集:
为此,我在由定义的阈值处应用了作弊时间表。这几乎使所有作弊都集中在65以下的一两个分数上:t=65δ(i)=exp(−2i)
为了了解测试的作用,我为每个分数(不只是计算了,并将其与分数相对应:zt
(实际上,为避免小计数带来麻烦,我首先将0到100的每个计数加1,以计算的分母。)z
接近65的波动是显而易见的,所有其他波动的趋势在大小上约为1,与该测试的假设一致。测试统计量为,相应的p值,这是非常显着的结果。与问题本身中的数字进行视觉比较表明,该测试将返回至少与p一样小的p值。z=−4.19Φ(z)=0.0000136
(不过请注意,测试本身并未使用此图,该图用于说明思想。该测试仅查看阈值处的图值,除此之外没有其他地方。不过,制作此类图将是一种很好的做法确认测试统计信息确实确实将预期阈值选作作弊位点,并且所有其他分数均未发生此类变化。在这里,我们看到,在所有其他分数中,波动范围约为-2和2,但很少也请注意,为了计算,实际上不需要计算此图中的值的标准偏差,从而避免了与欺诈效应相关的问题,这些欺诈效应会放大多个位置的波动。)z
当将此测试应用于多个阈值时,Bonferroni调整测试大小将是明智的。同时应用于多个测试时进行其他调整也是一个好主意。
评价
在实际数据上进行测试之前,不能认真建议使用此过程。一个好的方法是为一个测试取得分数,并以非关键分数作为阈值。据推测,这种阈值尚未受到这种形式的欺骗。根据该概念模型模拟作弊并研究的模拟分布。这将指示(a)p值是否准确,以及(b)测试的能力以表明模拟的作弊形式。确实,人们可以对正在评估的数据进行这种模拟研究,从而提供一种极其有效的方式来测试测试是否合适以及其实际功效。因为检验统计量zz 如此简单,仿真将是切实可行的,并且可以快速执行。