Spearman-Brown的预言公式如何受到不同困难的问题的影响?


10

Spearman-Brown预言公式的结果如何受到具有不同难度或容易或困难的评分者的测验问题的影响?一篇受人尊敬的文字说,SB受到了影响,但未提供详细信息。(请参见下面的引用。)

Guion,R.M(2011)。人事决策的评估,度量和预测,第二版。477页

“可以通过使用Spearman-Brown方程合并评估者来提高可靠性。...如果单个评级的可靠性为.50,那么两个,四个或六个并行评级的可靠性将分别约为.67,.80 ,和.86”(休斯顿,雷蒙德和史维克,1991年,第409页)。我喜欢这种说法,因为这个词大致上可以理解,如果所有的假设都按预期进行,则统计估计值是“平均”的陈述。除此之外,操作词是平行的。例如,如果一个评分者系统地宽大,则对评分进行平均(或使用Spearman-Brown),则完全不符合该假设。如果一篇论文的评价是由两个评价者来进行的,一个评价者对另一个评价者比较宽大,那么问题就好比使用两个难度不等(非平行形式)的多项选择题。基于不同(不相等)测试形式的分数无法比较。混合宽松和困难的评估者也是如此;经典测试理论的Spearman-Brown方程错误地估计了合并评级的可靠性。如果每个法官对结构的定义有所不同,情况就更糟了。”


1
我认为寻求可靠来源的问题在于答案来自测试理论,如果您了解基础理论,尤其是我们评估可靠性的能力的局限性,那么答案就显而易见。因此,Guion不再理会它。但是无论如何,祝您好运-也许某个地方的某人知道更好的解释。
Jeremy Miles

Answers:


10

虽然我觉得有点不好意思矛盾既是“尊重文本”以及其他CV用户,这在我看来,斯皮尔曼-布朗公式不会受具有不同难度的项目。可以肯定的是,Spearman-Brown公式通常是在我们有平行项目的假设下得出的,这意味着(除其他事项外)这些项目具有相同的难度。但是事实证明这种假设是没有必要的。它可以放宽以允许不平等的困难,而Spearman-Brown公式仍然适用。我在下面演示这一点。


回想一下,在经典测试理论中,度量假定为“真实分数”分量和误差分量的总和,即 且和不相关。平行项目的假设是,所有项目都具有相同的真实分数,只是它们的误差成分不同,尽管它们被假定具有相同的方差。在符号中,对于任何一对项目和, XTE

X=T+E,
TEXX
T=Tvar(E)=var(E).
让我们看看放宽第一个假设时会发生什么,从而使项目的难度可能有所不同,然后在这些新假设下得出总测试成绩的可靠性。具体来说,假设真实分数可能相差一个加性常数,但误差仍然具有相同的方差。在符号中, 难度的任何差异都可以通过加性常数来捕获。例如,如果,则分数往往高于上的分数,因此比 “容易” 。我们可以称它们为基本平行
T=T+cvar(E)=var(E).
c>0XXXX类似于“基本tau等效性”的假设,它以类似的方式放宽了tau等效模型。

现在得出此类项目的测试表格的可靠性。考虑一个由基本平行的项目组成的测试,其总和给出测试分数。根据定义,可靠性是真实分数差异与观察分数差异的比率。对于单个项目的可靠性,从基本并行性的定义可以得出,它们具有相同的可靠性,我们用,其中是真实分数方差,是误差方差。为了确保总考试成绩的可靠性,我们首先检查总考试成绩的方差,即 kρ=σT2/(σT2+σE2)σT2σE2 Ťσ 2 Ť σ 2 ë ķ 2 σ 2 Ť

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
其中(无下标)为任意的真实分数,所有的项目真分数可以通过它们的常数项被移动到,是真实分数方差,是误差方差。请注意,常数项会消失!这是关键。因此,总测试分数的可靠性为 TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,
这只是经典的Spearman-Brown公式,未更改。这表明即使改变项目的“难度”(定义为它们的平均分数),Spearman-Brown公式仍然成立。

@JeremyMiles提出了一些有趣和重要的观点,说明了当我们在“真实世界”中增加测试长度时会发生什么,但是至少根据经典测试理论的理想假设,项目难度的变化与测试可靠性无关紧要。测试形式(与现代项目响应理论的假设形成鲜明对比!)。这条相同的基本推理路线也是为什么我们通常讲本质的 tau等效而不是tau等效的原因,因为大多数重要结果都适用于项目难度(即均值)可能不同的更为宽大的情况。


2
是的,很好。我写的不一定成立。
Jeremy Miles

5

说起来不容易。

首先,Spearman-Brown假定从一组测试项目(或评估者)中随机抽取了测试项目(或评估者)。尤其是在测试中,这从来都不是真的,因为要编写更多的项目很困难,而且很可能您会使用更好的项目作为起点-然后您会发现测试需要更长的时间,因此为物品“刮擦”。

其次,物品的可靠性各不相同,可靠性不一定与难度有关(如果有帮助,请考虑物品响应理论中物品特征曲线的斜率和截距)。但是,可靠性的计算(例如Cronbach的alpha,这是类内相关性的一种形式)假定可靠性都相同(它们假定必不可少的tau等效测量模型-也就是说,每个项目的非标准化可靠性都是等于)。几乎可以肯定这是错误的。添加项目可能会增加,也可能会减少。这取决于项目。

这是另一种思考方式。我从总体中随机选择一个样本,然后计算平均值和平均值的标准误。该均值将是总体均值的无偏估计量。然后,我增加样本的大小-均值的期望值是相同的,但实际上不可能相同-几乎肯定会上升或下降。正如我期望的那样,标准误差会变小,但是它缩小的量并不会保持一致(标准误差变大也不是不可能。)


SB公式是否给出了预期可靠性的最小值,最大值或某个中间值?另外,由于可靠性是根据相关性来计算的,为什么简单/困难的项目或评估者会产生影响?
乔尔·W

SB公式给出了预期的可靠性。它可以高于或低于该值。一个问题是,有不止一种方法来计算可靠性,而他们所做的假设很少得到满足。整个过程都植根于经典的测试理论-项目响应理论是一种更现代的思考测量方法,并且在很多时候更有意义,例如,每个测试的可靠性都不相同IRT中的人。
杰里米·迈尔斯

如果问题很困难或非常容易,则可能会影响相关性。例如,“ 7 * 11”对于3年级来说可能是一个可靠的问题,但对于数学本科生而言,不是。
杰里米·迈尔斯

1
<测试需要更长的时间,因此您将“刮擦”物品。显然,您具有将测试组合在一起的真实经验。
乔尔·W。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.