序数或间隔数据的评分者间可靠性

哪种评级人间可靠性方法最适合序数或区间数据？

我相信“共同同意概率”或“ Kappa”是为名义数据设计的。虽然可以使用“ Pearson”和“ Spearman”，但它们主要用于两个评估者（尽管它们可以用于两个以上的评估者）。

还有哪些其他措施适合序数或间隔数据，即两个以上的评分者？

— 沙迪
source

Kappa（）统计量是一种质量指数，用于比较2位评估者在名义或顺序尺度上观察到的一致性与仅偶然偶然达成的一致性（就好像评估者正在抛出）。存在针对多个评估者的扩展（2，第284–291页）。对于有序数据，可以使用加权，该值基本上像往常一样显示其中非对角元素有助于一致性的度量。Fleiss（3）提供了解释值的准则，但这只是经验法则。 $\kappa$ $\kappa$ $\kappa$ $\kappa$

该统计是渐近相当于从双向随机效应ANOVA估计的ICC，但显着性检验和SE从平时的方差分析框架来都不再有效处理二进制数据。最好使用引导程序来获得置信区间（CI）。Fleiss（8）讨论了加权kappa和类内相关性（ICC）之间的联系。 $\kappa$

应当指出的是，一些心理学家不太喜欢因为它受测量对象的普遍性的影响，就像预测值受所考虑的疾病的普遍性的影响一样，这可能导致矛盾的结果。 $\kappa$

可以使用肯德尔的一致性系数来估计评估者的评估者间可靠性。当项目或单位的数量被评定为，。（2，第269–270页）。该渐近逼近法对于和中间值有效（6），但小于20的情况下，更适合进行排列检验（7）。Spearman的与Kendall的统计量之间存在密切的关系：可以直接从成对的Spearman相关性的平均值中计算得出（仅用于无约束的观测）。 $k$ $W$ $n > 7$ $k(n − 1)W \sim \chi^2(n − 1)$ $n$ $k$ $F$ $\rho$ $W$ $W$

多色（常规数据）相关性也可以用作评估者之间一致性的度量。确实，他们允许

估计如果连续进行评分，那将是什么相关性，
测试评估者之间的边缘同质性。

实际上，可以证明这是潜在性状建模的特例，它可以放宽分布假设（4）。

对于连续（或假定的）测量，量化归因于受试者之间差异的方差比例的ICC很好。同样，建议使用自举CI。正如@ars所说，基本上有两个版本-协议和一致性-适用于协议研究（5），并且主要在平方和的计算方式上有所不同。通常估算“一致性” ICC时不考虑项目x评估者交互作用。ANOVA框架对于特定的区块设计非常有用，在该区块中，人们希望最小化评级（BIBD）的数量-实际上，这是Fleiss作品的最初动机之一。这也是多位评估者的最佳方法。这种方法的自然扩展被称为概化理论。在“ 评估者模型：简介 ”中进行了简要概述，否则，标准参考书是Brennan的书，该书在Psychometrika 2006 71（3）中进行了审查。

至于一般参考文献，我推荐格雷厄姆·邓恩（Graham Dunn）的《精神病学统计学》第3章（Hodder Arnold，2000年）。为了更完整地处理可靠性研究，迄今为止最好的参考是

邓恩（2004）。可靠性研究的设计与分析。阿诺德参见《国际流行病学杂志》的评论。

John Uebersax的网站上提供了很好的在线介绍，类内关联和相关方法；它包括对ICC方法的利弊的讨论，特别是在顺序量表方面。

在Psychometrics Task View中可以找到用于双向评估（常规或连续测量）的相关R包；我通常使用psy，psych或irr软件包。还有concord软件包，但我从未使用过。对于处理两个以上的评估者，lme4软件包是一种处理方法，它允许轻松合并随机效应，但是大多数可靠性设计都可以使用进行分析，aov()因为我们只需要估计方差分量。

参考文献

J科恩。加权kappa：标称规模协议，其中规定了部分信贷的规模差异。心理学公报，70，213-220，1968。
S Siegel和Jr N John Castellan。行为科学的非参数统计。McGraw-Hill，第二版，1988年。
JL Fleiss。比率和比例的统计方法。纽约：威利，第二版，1981年。
JS Uebersax。四项和多项相关系数。《评定者协议统计方法》网站，2006年。可在以下网址获得：http：//john-uebersax.com/stat/tetra.htm。于2010年2月24日访问。
PE Shrout和JL Fleiss。类内相关：用于评估评估者的可靠性。心理公报》，第86卷，第420-428页，1979年。
MG Kendall和B Babington Smith。m排名问题。数理统计年鉴，10，275-287，1939年。
P勒让德。一致性系数。在NJ Salkind，《研究设计百科全书》的编辑中。SAGE出版物，2010年。
JL Fleiss。加权kappa和类内部相关系数的等价性作为信度的度量。教育和心理测量，33，613-619，1973。

— hl
source

其他三个参考文献：1. 超越Kappa： Mousumi Banerjee，Michelle Capozzoli，Laura McSweeney和Debajyoti Sinha 对跨界协议措施的回顾。2. 评价者的信度和性能等级的一致性： John W. Fleenor，Julie B的方法比较。 Fleenor和William F. Grossnickle

— M. Tibbits 2010年

3. 评估与运动医学有关的变量中的测量误差（可靠性）的统计方法。由Atkinson G＆Nevill AM提供。第一份参考书专门针对序数数据，并讨论了除kappa之外的序数数据的其他度量。第二和第三特定于间隔数据。

— M. Tibbits，2010年

（+1）非常感谢M. Tibbits！在我的心理学计量学课程中，我通常会提供很多参考和示例，包括您引用的第一篇，但我不知道另外两个。

— chl 2010年

另外，序数包允许像lme4这样的多级建模，但具有序数回归。

— 约翰

类内相关可用于序数数据。但是有一些警告，主要是无法区分评估者。有关此内容以及如何在ICC的不同版本中进行选择的更多信息，请参见：

类内相关：用于评估评分者的信度（Shrout，Fleiss，1979）

— 阿尔斯
source