类内相关系数与F检验(单向方差分析)?


10

关于类内相关系数和单向方差分析,我有些困惑。据我了解,两者都可以告诉您相对于其他组中的观察而言,一个组中的相似观察如何。

有人可以更好地解释这一点,也许可以解释每种方法更有利的情况?


请花点时间看一下可靠性评估者标签。ICC基于ANOVA表,但其想法仅是分析方差的组成部分,而不是生成具有已知分布特性的单个检验统计量,例如F检验。您打算使用什么应用程序?
chl

@chl我想分析分组数据的单个分数。我看过几篇论文,研究了父母和孩子得分之间的差异,并使用ICC来判断父母与孩子的反应是否存在显着差异。我认为ICC是我想要的,但是正如我提到的,我并不真正了解两者之间的区别。我犹豫要问更多,但是您知道任何好的(基础)参考吗?我的统计资料背景在线性回归时停止了,我觉得我在问的问题格式不正确。谢谢。
2011年

看起来您已经配对了数据。当考虑单独的群体(父母与子女)并使用ICC报告分数的可靠性时,您将丢弃部分信息,即父母及其亲戚的评分是否以一致的方式行事。您的两个ICC仅会告诉您这两个系列的分数(假设是独立的)是否是“可靠的”,在某种意义上,评估者效应可能解释了方差的很大一部分。(...)
chl

(...)总之,如果您想证明父母的等级比孩子的等级更可靠,那么使用ICC很好;另一方面,如果您想研究父母的等级与孩子的等级之间的关系,那么您可以求助于其他类型的分析(准确地说是对二元数据的分析)。
chl

Answers:


17

两种方法都基于相同的思想,即将观察到的方差分解为不同的部分或组成部分。但是,在将项目和/或评估者视为固定效应还是随机效应方面,存在细微的差异。除了说总可变性的哪一部分由中间因素(或方差与剩余方差相差多少)来解释之外,F检验并没有说太多。至少对于单向方差分析,在假定固定效果的情况下(与下面描述的ICC(1,1)相对应),这至少适用。另一方面,在评估几个“可互换”评估者的评估信度或分析单位之间的同质性时,ICC提供有界指数。

通常,我们在不同类型的ICC之间进行以下区分。这源于Shrout和Fleiss(1979)的开创性著作:

  • 单向随机效应模型 ICC(1,1):每个项目均由不同的评估者评分,这些评估者被视为从较大的潜在评估者集合中抽样,因此将其视为随机效应;然后,将ICC解释为主题/项目差异占总差异的百分比。这称为一致性ICC。
  • 双向随机效应模型 ICC(2,1):两个因素-评分者和项目/对象-均被视为随机效应,除剩余方差外,我们还有两个方差成分(或均方);我们进一步假设评估者评估所有项目/主题;在这种情况下,ICC给出了归因于评估者+项目/主题的差异百分比。
  • 双向混合模型,ICC(3,1):与单向方法相反,此处的评估者被视为固定效应(手边的样本之外没有通用性),但项目/主体被视为随机效应;分析单位可以是个人评分或平均评分。

这对应于表1中的情况1至3。还可以根据我们是否认为观察到的等级是多个等级的平均值(它们分别称为ICC(1,k),ICC(2,k),和ICC(3,k))。

总之,您必须选择正确的模型(单向与双向),这在Shrout和Fleiss的论文中进行了很大的讨论。单向模型倾向于产生比两向模型更小的值。同样,随机效应模型通常会产生比固定效应模型更低的值。从固定效应模型得出的ICC被视为评估评估者一致性的一种方式(因为我们忽略评估者方差),而对于随机效应模型,我们谈论评估者协议的估计(评估者是否可互换)。只有双向模型包含了评估者x主体交互作用,当试图解开非典型的评估模式时可能会感兴趣。

下图是容易的拷贝/粘贴从该示例的ICC()迷幻包(数据来自Shrout和弗莱斯,1979)。数据由4名评委(J)评估6个主题或目标(S)组成,并在下面进行了汇总(我将假设它存储为名为的R矩阵sf

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

这个例子很有趣,因为它显示了模型的选择可能如何影响结果,因此解释了可靠性研究。所有6种ICC模型如下(这是Shrout和Fleiss的论文中的表4)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

可以看出,将评估者视为固定效应(因此不尝试推广到更广泛的评估者群体)将为度量的同质性带来更高的价值。(尽管我们必须对模型类型和分析单位使用不同的选项,但使用irr包(icc())可以获得类似的结果。)

方差分析的方法告诉我们什么?我们需要拟合两个模型以获得相关的均方根:

  • 仅考虑主题的单向模型;这样就可以分离出被评估的目标(组间MS,BMS)并获得误差内项(WMS)的估算值
  • 考虑对象+评分者+交互作用的双向模型(当没有重复项时,最后一项将与残差混淆);这允许估计评估者主效应(JMS),如果我们要使用随机效应模型,可以考虑该效应(即,将其添加到总变异性中)

无需查看F检验,这里仅涉及MS。

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

现在,我们可以在扩展的ANOVA表中组装不同的部分,该表如下图所示(这是Shrout和Fleiss的论文中的表3):


(来源:mathurl.com

其中前两行来自单向模型,而后两行则来自两向ANOVA。

在Shrout和Fleiss的文章中检查所有公式很容易,并且我们拥有评估单个评估可靠性所需的一切。多次评估平均值可靠性(通常是评估者间研究的兴趣量)如何?按照Hays和Revicki(2005)的观点,可以通过改变分母中考虑的总MS来从上述分解中获得,除了必须重写MS比率的双向随机效应模型。

  • 在ICC(1,1)=(BMS-WMS)/(BMS +(k-1)•WMS)的情况下,总体可靠性计算为(BMS-WMS)/BMS=0.443。
  • 对于ICC(2,1)=(BMS-EMS)/(BMS +(k-1)•EMS + k•(JMS-EMS)/ N),总体可靠性为(N•(BMS-EMS))/ (N•BMS + JMS-EMS)= 0.620。
  • 最后,对于ICC(3,1)=(BMS-EMS)/(BMS +(k-1)•EMS),我们具有(BMS-EMS)/BMS=0.909的可靠性。

同样,我们发现,将评估者视为固定效应时,总体可靠性更高。

参考文献

  1. Shrout,PE和Fleiss,JL(1979)。类内关联:用于评估评估者的可靠性心理通报,86,420-3428。
  2. Hays,RD和Revicki,D.(2005年)。可靠性和有效性(包括响应性)。在Fayers,P.和Hays,RD(eds。),《临床试验中的生活质量评估》,第二版,第25-39页。牛津大学出版社。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.