Answers:
是的,这是可能的,并且它可能以各种方式发生。一个明显的例子是,选择A和B的成员资格以某种方式反映x和y的值。其他示例也是可能的,例如@Macro的注释提出了另一种可能性。
考虑下面用R编写的示例。x和y是iid标准正态变量,但是如果我根据x和y的相对值将它们分配给组,则会得到您命名的称呼。在A组和B组中,x和y之间具有很强的统计显着相关性,但是如果忽略分组结构,则没有相关性。
> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)
Pearson's product-moment correlation
data: x and y
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.09292 0.03094
sample estimates:
cor
-0.03111
> cor.test(x[Group=="A"], y[Group=="A"])
Pearson's product-moment correlation
data: x[Group == "A"] and y[Group == "A"]
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4040 0.5414
sample estimates:
cor
0.4756
> cor.test(x[Group=="B"], y[Group=="B"])
Pearson's product-moment correlation
data: x[Group == "B"] and y[Group == "B"]
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3292 0.4744
sample estimates:
cor
0.4043
> qplot(x,y, color=Group)
一种可能是,效果在每个组中可能朝不同的方向发展,并且在汇总时会被抵消。这还与如何在回归模型中忽略重要的交互作用项时产生的主要影响产生误导。
例如,假设在组中 ,反应之间的真实关系 和预测变量 是:
和组 ,
假设分配了组成员身份,以便
因此,如果 , 而且不依赖 完全没有 因此,两个组之间都存在关系,但是,当您将它们汇总时,就没有关系。换句话说,对于人口中随机选择的,我们不知道其成员身份的个人,平均而言, 和 。但是,在每个组中都有。
任何例子中 完美平衡每个组中的效果大小也将导致此结果-这只是这个玩具示例,它使计算变得容易:)
注意:对于正常误差,线性回归系数的显着性等于Pearson相关性的显着性,因此本示例重点说明了您所看到的内容。