关于类内相关系数和单向方差分析,我有些困惑。据我了解,两者都可以告诉您相对于其他组中的观察而言,一个组中的相似观察如何。
有人可以更好地解释这一点,也许可以解释每种方法更有利的情况?
关于类内相关系数和单向方差分析,我有些困惑。据我了解,两者都可以告诉您相对于其他组中的观察而言,一个组中的相似观察如何。
有人可以更好地解释这一点,也许可以解释每种方法更有利的情况?
Answers:
两种方法都基于相同的思想,即将观察到的方差分解为不同的部分或组成部分。但是,在将项目和/或评估者视为固定效应还是随机效应方面,存在细微的差异。除了说总可变性的哪一部分由中间因素(或方差与剩余方差相差多少)来解释之外,F检验并没有说太多。至少对于单向方差分析,在假定固定效果的情况下(与下面描述的ICC(1,1)相对应),这至少适用。另一方面,在评估几个“可互换”评估者的评估信度或分析单位之间的同质性时,ICC提供有界指数。
通常,我们在不同类型的ICC之间进行以下区分。这源于Shrout和Fleiss(1979)的开创性著作:
这对应于表1中的情况1至3。还可以根据我们是否认为观察到的等级是多个等级的平均值(它们分别称为ICC(1,k),ICC(2,k),和ICC(3,k))。
总之,您必须选择正确的模型(单向与双向),这在Shrout和Fleiss的论文中进行了很大的讨论。单向模型倾向于产生比两向模型更小的值。同样,随机效应模型通常会产生比固定效应模型更低的值。从固定效应模型得出的ICC被视为评估评估者一致性的一种方式(因为我们忽略评估者方差),而对于随机效应模型,我们谈论评估者协议的估计(评估者是否可互换)。只有双向模型包含了评估者x主体交互作用,当试图解开非典型的评估模式时可能会感兴趣。
下图是容易的拷贝/粘贴从该示例的ICC()
在迷幻包(数据来自Shrout和弗莱斯,1979)。数据由4名评委(J)评估6个主题或目标(S)组成,并在下面进行了汇总(我将假设它存储为名为的R矩阵sf
)
J1 J2 J3 J4
S1 9 2 5 8
S2 6 1 3 2
S3 8 4 6 8
S4 7 1 2 6
S5 10 5 6 9
S6 6 2 4 7
这个例子很有趣,因为它显示了模型的选择可能如何影响结果,因此解释了可靠性研究。所有6种ICC模型如下(这是Shrout和Fleiss的论文中的表4)
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.17 1.8 5 18 0.16477 -0.133 0.72
Single_random_raters ICC2 0.29 11.0 5 15 0.00013 0.019 0.76
Single_fixed_raters ICC3 0.71 11.0 5 15 0.00013 0.342 0.95
Average_raters_absolute ICC1k 0.44 1.8 5 18 0.16477 -0.884 0.91
Average_random_raters ICC2k 0.62 11.0 5 15 0.00013 0.071 0.93
Average_fixed_raters ICC3k 0.91 11.0 5 15 0.00013 0.676 0.99
可以看出,将评估者视为固定效应(因此不尝试推广到更广泛的评估者群体)将为度量的同质性带来更高的价值。(尽管我们必须对模型类型和分析单位使用不同的选项,但使用irr包(icc()
)可以获得类似的结果。)
方差分析的方法告诉我们什么?我们需要拟合两个模型以获得相关的均方根:
无需查看F检验,这里仅涉及MS。
library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))
现在,我们可以在扩展的ANOVA表中组装不同的部分,该表如下图所示(这是Shrout和Fleiss的论文中的表3):
(来源:mathurl.com)
其中前两行来自单向模型,而后两行则来自两向ANOVA。
在Shrout和Fleiss的文章中检查所有公式很容易,并且我们拥有评估单个评估的可靠性所需的一切。多次评估平均值的可靠性(通常是评估者间研究的兴趣量)如何?按照Hays和Revicki(2005)的观点,可以通过改变分母中考虑的总MS来从上述分解中获得,除了必须重写MS比率的双向随机效应模型。
同样,我们发现,将评估者视为固定效应时,总体可靠性更高。