Answers:
Kappa()统计量是一种质量指数,用于比较2位评估者在名义或顺序尺度上观察到的一致性与仅偶然偶然达成的一致性(就好像评估者正在抛出)。存在针对多个评估者的扩展(2,第284–291页)。对于有序数据,可以使用加权,该值基本上像往常一样显示其中非对角元素有助于一致性的度量。Fleiss(3)提供了解释值的准则,但这只是经验法则。
该统计是渐近相当于从双向随机效应ANOVA估计的ICC,但显着性检验和SE从平时的方差分析框架来都不再有效处理二进制数据。最好使用引导程序来获得置信区间(CI)。Fleiss(8)讨论了加权kappa和类内相关性(ICC)之间的联系。
应当指出的是,一些心理学家不太喜欢因为它受测量对象的普遍性的影响,就像预测值受所考虑的疾病的普遍性的影响一样,这可能导致矛盾的结果。
可以使用肯德尔的一致性系数来估计评估者的评估者间可靠性。当项目或单位的数量被评定为,。(2,第269–270页)。该渐近逼近法对于和中间值有效(6),但小于20的情况下,更适合进行排列检验(7)。Spearman的与Kendall的统计量之间存在密切的关系:可以直接从成对的Spearman相关性的平均值中计算得出(仅用于无约束的观测)。
多色(常规数据)相关性也可以用作评估者之间一致性的度量。确实,他们允许
实际上,可以证明这是潜在性状建模的特例,它可以放宽分布假设(4)。
对于连续(或假定的)测量,量化归因于受试者之间差异的方差比例的ICC很好。同样,建议使用自举CI。正如@ars所说,基本上有两个版本-协议和一致性-适用于协议研究(5),并且主要在平方和的计算方式上有所不同。通常估算“一致性” ICC时不考虑项目x评估者交互作用。ANOVA框架对于特定的区块设计非常有用,在该区块中,人们希望最小化评级(BIBD)的数量-实际上,这是Fleiss作品的最初动机之一。这也是多位评估者的最佳方法。这种方法的自然扩展被称为概化理论。在“ 评估者模型:简介 ”中进行了简要概述,否则,标准参考书是Brennan的书,该书在Psychometrika 2006 71(3)中进行了审查。
至于一般参考文献,我推荐格雷厄姆·邓恩(Graham Dunn)的《精神病学统计学》第3章(Hodder Arnold,2000年)。为了更完整地处理可靠性研究,迄今为止最好的参考是
邓恩(2004)。可靠性研究的设计与分析。阿诺德 参见《国际流行病学杂志》的评论。
John Uebersax的网站上提供了很好的在线介绍,类内关联和相关方法;它包括对ICC方法的利弊的讨论,特别是在顺序量表方面。
在Psychometrics Task View中可以找到用于双向评估(常规或连续测量)的相关R包;我通常使用psy,psych或irr软件包。还有concord软件包,但我从未使用过。对于处理两个以上的评估者,lme4软件包是一种处理方法,它允许轻松合并随机效应,但是大多数可靠性设计都可以使用进行分析,aov()
因为我们只需要估计方差分量。
参考文献
类内相关可用于序数数据。但是有一些警告,主要是无法区分评估者。有关此内容以及如何在ICC的不同版本中进行选择的更多信息,请参见: