Kappa()统计数据是由Cohen [1]在1960年引入的,用于测量两个评估者之间的一致性。然而,它的差异在相当长一段时间以来一直是矛盾的根源。
我的问题是,对于大型样本,哪种方法是最佳计算方法?我倾向于相信由Fleiss [2]测试和验证的是正确的选择,但这似乎并不是唯一发表的似乎是正确的(并在相当近期的文献中使用)。
现在,我有两种具体方法来计算其渐近大样本方差:
- Fleiss,Cohen和Everitt发表的校正方法[2]。
- 增量法可以在Colgaton,2009 [4](第106页)的书中找到。
为了说明这种混淆,以下是Fleiss,Cohen和Everitt [2]的引文,重点是我的话:
在实现最终成功之前,许多人类的努力被反复失败所困扰。珠穆朗玛峰的缩放就是一个例子。西北通道的发现是第二次。推导正确的kappa标准误差是第三次。
因此,以下是发生的情况的小结:
- 1960年:科恩(Cohen)发表论文“名义尺度的一致性系数” [1],介绍了他的机会校正的两个评估者之间的一致性度量,称为。但是,他为方差计算发布了错误的公式。
- 1968年:Everitt尝试更正它们,但他的公式也不正确。
- 1969年:Fleiss,Cohen和Everitt在论文“ Kappa和加权Kappa的大样本标准误差”中发表了正确的公式[2]。
- 1971年:Fleiss 用相同的名称发布了另一个统计信息(但有所不同),其方差公式不正确。
- 1979年:Fleiss Nee和Landis出版了Fleiss的的更正公式。
首先,请考虑以下符号。此表示法意味着将求和运算符应用于点所放置的维度中的所有元素:
现在,人们可以将Kappa计算为:
在其中
是遵守的协议,并且
是机会协议。
到目前为止,科恩的正确方差计算如下:
在原假设下,由下式给出:
康加尔顿的方法似乎是基于增量方法来获得方差(Agresti,1990; Agresti,2002)。但是我不确定什么是增量方法或为什么必须使用它。所述方差,则此方法下,由下式给出:
在其中
(Congalton使用下标而不是,但这似乎是同一意思。此外,我假设应该是一个计数矩阵,即在除以样本数后的混淆矩阵为通过公式关联))
另一个奇怪的地方是,Collaton的书似乎参考了Cohen的原始论文,但似乎并未引用Fleiss等人发表的Kappa方差的更正,直到他继续讨论加权Kappa为止。也许他的第一本出版物是在卡帕的真正公式仍然混乱的时候写的?
有人能够解释为什么存在这些差异吗?还是为什么有人会使用delta方法方差而不是Fleiss的更正版本?
[1]:弗莱斯,约瑟夫·L;科恩,雅各布;埃弗里特,BS;kappa和加权kappa的大样本标准误。心理公报,第72(5)卷,1969年11月,323-327。doi:10.1037 / h0028106
[2]:科恩,雅各布(1960)。名义尺度的一致性系数。教育和心理测量20(1):37–46。DOI:10.1177 / 001316446002000104。
[3]:Alan Agresti,分类数据分析,第二版。约翰·威利父子(John Wiley and Sons),2002年。
[4]:Russell G. Congalton和Green,K .;评估遥感数据的准确性:原则和实践,第二版。2009年。