计算科恩的Kappa方差(和标准误差)


44

Kappa()统计数据是由Cohen [1]在1960年引入的,用于测量两个评估者之间的一致性。然而,它的差异在相当长一段时间以来一直是矛盾的根源。κ

我的问题是,对于大型样本,哪种方法是最佳计算方法?我倾向于相信由Fleiss [2]测试和验证的是正确的选择,但这似乎并不是唯一发表的似乎是正确的(并在相当近期的文献中使用)。

现在,我有两种具体方法来计算其渐近大样本方差:

  • Fleiss,Cohen和Everitt发表的校正方法[2]。
  • 增量法可以在Colgaton,2009 [4](第106页)的书中找到。

为了说明这种混淆,以下是Fleiss,Cohen和Everitt [2]的引文,重点是我的话:

在实现最终成功之前,许多人类的努力被反复失败所困扰。珠穆朗玛峰的缩放就是一个例子。西北通道的发现是第二次。推导正确的kappa标准误差是第三次

因此,以下是发生的情况的小结:

  • 1960年:科恩(Cohen)发表论文“名义尺度的一致性系数” [1],介绍了他的机会校正的两个评估者之间的一致性度量,称为。但是,他为方差计算发布了错误的公式。κ
  • 1968年:Everitt尝试更正它们,但他的公式也不正确。
  • 1969年:Fleiss,Cohen和Everitt在论文“ Kappa和加权Kappa的大样本标准误差”中发表了正确的公式[2]。
  • 1971年:Fleiss 用相同的名称发布了另一个统计信息(但有所不同),其方差公式不正确。κ
  • 1979年:Fleiss Nee和Landis出版了Fleiss的的更正公式。κ

首先,请考虑以下符号。此表示法意味着将求和运算符应用于点所放置的维度中的所有元素:

   pi.=j=1kpij    p.j=i=1kpij

现在,人们可以将Kappa计算为:

   κ^=popc1pe

在其中

   po=i=1kpii是遵守的协议,并且

   pc=i=1kpi.p.i是机会协议。

到目前为止,科恩的正确方差计算如下:κ

   var^(κ^)=1N(1pc)4{i=1kpii[(1po)(p.i+pi.)(1po)]2   +(1po)2i=1kj=1ijkpij(p.i+pj.)2(popc2pc+po)2}

在原假设下,由下式给出:

   var^(κ^)=1N(1pc)2{i=1kp.ipi.[1(p.i+pi.)2]+i=1kj=1,ijkp.ipj.(p.i+pj.)2pc2}

康加尔顿的方法似乎是基于增量方法来获得方差(Agresti,1990; Agresti,2002)。但是我不确定什么是增量方法或为什么必须使用它。所述方差,则此方法下,由下式给出:κ

   var^(κ^)=1n{θ1(1θ1)(1θ2)2+2(1θ1)(2θ1θ2θ3)(1θ2)3+(1θ1)2(θ44θ22)(1θ2)4}

在其中

   θ1=1ni=1knii

   θ2=1n2i=1kni+n+i

   θ3=1n2i=1knii(ni++n+i)

   θ4=1n3i=1kj=1knij(nj++n+i)2

(Congalton使用下标而不是,但这似乎是同一意思。此外,我假设应该是一个计数矩阵,即在除以样本数后的混淆矩阵为通过公式关联))+.nijpij=nijsamples

另一个奇怪的地方是,Collat​​on的书似乎参考了Cohen的原始论文,但似乎并未引用Fleiss等人发表的Kappa方差的更正,直到他继续讨论加权Kappa为止。也许他的第一本出版物是在卡帕的真正公式仍然混乱的时候写的?

有人能够解释为什么存在这些差异吗?还是为什么有人会使用delta方法方差而不是Fleiss的更正版本?

[1]:弗莱斯,约瑟夫·L;科恩,雅各布;埃弗里特,BS;kappa和加权kappa的大样本标准误。心理公报,第72(5)卷,1969年11月,323-327。doi:10.1037 / h0028106

[2]:科恩,雅各布(1960)。名义尺度的一致性系数。教育和心理测量20(1):37–46。DOI:10.1177 / 001316446002000104。

[3]:Alan Agresti,分类数据分析,第二版。约翰·威利父子(John Wiley and Sons),2002年。

[4]:Russell G. Congalton和Green,K .;评估遥感数据的准确性:原则和实践,第二版。2009年。


您的某些括号不可用,您能解决它们吗?另外,您可能希望将嵌套括号的格式设置为{[(x + y)^ z + a] ^ b-c},以使它们更易读。
StasK 2012年

另外,请提供本身以及其他等效的公式(如果存在)。根据特定的替代公式,方差表达式可能更容易获得。(我想到的是基尼指数,对于iid数据,有五种左右的表述暗示着复杂调查数据的完全不同的方差估计量。)κ
StasK 2012年

感谢您的反馈。我已经更正了公式,并添加了如何计算Kappa。Kappa公式在所有文献中似乎是一致的,只是其差异并不一致。
Cesar

1
顺便说一句,我只是注意到了Colgaton的书上似乎有印刷错误:他定义了,但是这个来自何处。我想它本来应该是,否则我不确定这是否有意义。pc=i=1kpi+p+jjpc=i=1kpi+p+i
塞萨尔(Cesar)2012年

2
我至少可以帮助您完成这一部分:“我不确定什么是增量法” – en.wikipedia.org/wiki/Delta_method,那里的差异就在这里
Glen_b 2012年

Answers:


7

我不知道计算方差的两种方法中的哪一种更可取,但是我可以给您提供第三种实用且有用的方法,即通过使用Cohen卡伯河贝叶斯估计来计算置信度/可信区间。

下面的RJAGS代码根据给定数据的Kapp可信值的后验分布生成MCMC样本。

library(rjags)
library(coda)
library(psych)

# Creating some mock data
rater1 <- c(1, 2, 3, 1, 1, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3) 
rater2 <- c(1, 2, 2, 1, 2, 2, 3, 1, 3, 1, 2, 3, 2, 1, 1) 
agreement <- rater1 == rater2
n_categories <- 3
n_ratings <- 15

# The JAGS model definition, should work in WinBugs with minimal modification
kohen_model_string <- "model {
  kappa <- (p_agreement - chance_agreement) / (1 - chance_agreement)
  chance_agreement <- sum(p1 * p2)

  for(i in 1:n_ratings) {
    rater1[i] ~ dcat(p1)
    rater2[i] ~ dcat(p2)
    agreement[i] ~ dbern(p_agreement)
  }

  # Uniform priors on all parameters
  p1 ~ ddirch(alpha)
  p2 ~ ddirch(alpha)
  p_agreement ~ dbeta(1, 1)
  for(cat_i in 1:n_categories) {
    alpha[cat_i] <- 1
  }
}"

# Running the model
kohen_model <- jags.model(file = textConnection(kohen_model_string),
                 data = list(rater1 = rater1, rater2 = rater2,
                   agreement = agreement, n_categories = n_categories,
                   n_ratings = n_ratings),
                 n.chains= 1, n.adapt= 1000)

update(kohen_model, 10000)
mcmc_samples <- coda.samples(kohen_model, variable.names="kappa", n.iter=20000)

下图显示了来自Kappa后分布的MCMC样本的密度图。

后Kappa密度

现在,使用MCMC样本,我们可以将中位数用作Kappa的估计值,并将2.5%和97.5%的分位数用作95%的置信度/可信区间。

summary(mcmc_samples)$quantiles
##      2.5%        25%        50%        75%      97.5% 
## 0.01688361 0.26103573 0.38753814 0.50757431 0.70288890 

将其与根据Fleiss,Cohen和Everitt计算的“经典”估算值进行比较:

cohen.kappa(cbind(rater1, rater2), alpha=0.05)
##                  lower estimate upper
## unweighted kappa  0.041     0.40  0.76

我个人更喜欢贝叶斯置信区间而不是经典置信区间,尤其是因为我相信贝叶斯置信区间具有更好的小样本属性。人们对贝叶斯分析的普遍关注是,您必须指定有关参数分布的先验信念。幸运的是,在这种情况下,只需在所有参数上均匀分布即可轻松构造“客观”先验。这将使贝叶斯模型的结果非常类似于Kappa系数的“经典”计算。

参考文献

Sanjib Basu,Mousu​​mi Banerjee和Ananda Sen(2000)。来自单项和多项研究的贝叶斯推理。生物识别技术,卷。(2000年6月第56号,第577-582页)。


您知道是否有两个以上评估者的扩展?
Fomite'7
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.