每个组中的相关性是否显着,但总体上无关紧要?


9

假设我们测试变量之间的Pearson相关性 X和在和。相关性在和每个中是否可能都是有效的,但当将两组数据组合在一起时却不重要吗?在这种情况下,请您提供一个解释。ÿ一个Xÿ一个

Answers:


21

是的,这是可能的,并且它可能以各种方式发生。一个明显的例子是,选择A和B的成员资格以某种方式反映x和y的值。其他示例也是可能的,例如@Macro的注释提出了另一种可能性。

考虑下面用R编写的示例。x和y是iid标准正态变量,但是如果我根据x和y的相对值将它们分配给组,则会得到您命名的称呼。在A组和B组中,x和y之间具有很强的统计显着相关性,但是如果忽略分组结构,则没有相关性。

在此处输入图片说明

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

+1。这是我没有想到的一个非常聪明的例子。
2012年

13

一种可能是,效果在每个组中可能朝不同的方向发展,并且在汇总时会被抵消。这还与如何在回归模型中忽略重要的交互作用项时产生的主要影响产生误导。

例如,假设在组中 一个,反应之间的真实关系 ÿ一世 和预测变量 X一世 是:

Ëÿ一世|X一世G[RØüp 一个=1个+X一世

和组

Ëÿ一世|X一世G[RØüp =1个-X一世

假设分配了组成员身份,以便

PG[RØüp 一个=1个-PG[RØüp =p
然后,如果您将组成员资格边缘化并计算 Ëÿ一世|X一世全期望公式

Ëÿ一世|X一世=ËËÿ一世|X一世G[RØüp=p1个+X一世+1个-p1个-X一世=p+pX一世+1个-X一世-p+pX一世=1个-X一世2p-1个

因此,如果 p=1个/2Ëÿ一世|X一世=1个 而且不依赖 X一世完全没有 因此,两个组之间都存在关系,但是,当您将它们汇总时,就没有关系。换句话说,对于人口中随机选择的,我们不知道其成员身份的个人,平均而言,X一世ÿ一世。但是,在每个组中都有。

任何例子中 p 完美平衡每个组中的效果大小也将导致此结果-这只是这个玩具示例,它使计算变得容易:)

注意:对于正常误差,线性回归系数的显着性等于Pearson相关性的显着性,因此本示例重点说明了您所看到的内容。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.