X和Y没有相关性,但是X是多元回归中Y的重要预测因子。这是什么意思?


34

X和Y不相关(-.01);但是,当我将X放入预测Y的多元回归中时,与其他三个(A,B,C)变量(相关)并列,X和另外两个变量(A,B)是Y的重要预测因子。请注意,另外两个( A,B)变量在回归之外与Y显着相关。

我应该如何解释这些发现?X可以预测Y的唯一方差,但是由于这些不相关(Pearson),因此难以解释。

我知道相反的情况(即,两个变量是相关的,但回归不显着),从理论和统计的角度来看,它们相对较容易理解。请注意,一些预测变量之间的相关性很高(例如,.70),但与我预期的实质多重共线性的程度不同。不过,也许我误会了。

注意:我之前曾问过这个问题,所以已经关闭了。合理的理由是,该问题与“ 回归如何显着而所有预测变量都不显着? ”这样的问题是多余的“。也许我不理解另一个问题,但我认为这些问题在数学和理论上都是完全独立的问题。我的问题与“回归显着”是否完全独立。此外,有几个预测变量也很重要,而另一个问题包含的变量并不重要,因此我看不到重叠之处。如果由于我不理解的原因这些问题是多余的,请在关闭此问题之前插入一条评论。此外,我也希望向主持人关闭另一个问题,以避免相同的问题,但我找不到这样做的选择。


2
我确实认为这与先前的问题非常相似。如果X和Y基本不相关,则在简单的线性回归中,X的斜率系数将不显着。毕竟,斜率估计与样本相关性成正比。螺母多元回归可能是一个不同的故事,因为X和Z一起可以解释Y的许多可变性。由于我的答案听起来与上一个问题的答案相似,因此可能表明存在明显的相似性。
Michael R. Chernick

2
感谢您在其他主题中的答复和非常详细的答案。我需要花一些时间来阅读它的论文。我想,我的另一个问题是如何实际地而不是从统计学或数学上解释它。例如,说游泳速度和特质焦虑不相关,但是与其他预测因子相比,特质焦虑是多重回归中游泳速度的重要预测因子。实际上这怎么有意义?可以说您是在临床杂志的讨论部分中撰写本文的!
Behacad 2012年

3
@jth由于您认为两个问题完全不同,因此不能视为重复问题,请随时将对另一个问题的回答移至此处。(我不最初欣赏差异道歉。)新的笔记,我相信,在假设不正确的问题是数学的不同- @迈克尔Chernick指出,他们基本上是相同的-但强调解释建立一个有效的理由使线程分开。
ub

1
我也将答案移到了这里。我认为两个问题都大相径庭,但可能会有一些共同的解释。
JDav 2012年

1
该网页还对相关主题进行了精彩的讨论。它很长,但是非常好,可以帮助您了解问题。我建议您完整阅读。
gung-恢复莫妮卡

Answers:


39

因果理论为两个变量如何无条件独立而又有条件依赖提供了另一种解释。我不是因果理论方面的专家,并且感谢任何纠正以下错误指导的批评。

为了说明这一点,我将使用有向无环图(DAG)。在这些图中,变量之间的边缘()表示直接因果关系。箭头(或)指示因果关系的方向。因此,推断直接导致,而推断直接由引起。是因果路径,它推断通过间接导致ABABABABABCACB。为简单起见,假定所有因果关系都是线性的。

首先,考虑一个混杂因素偏见的简单示例:

混杂因素

在这里,简单的双变量回归将暗示和之间的依赖关系。但是,和之间没有直接因果关系。相反,两者都是直接由引起的,并且在简单的双变量回归中,观察导致和之间的依赖关系,从而导致混淆。但是,基于的多变量回归条件将消除偏差,并且表明和之间没有依赖性。XYXYZZXYZXY

其次,考虑对撞机偏差(也称为伯克森偏差或伯克森偏差,其中选择偏差是一种特殊类型)的示例

对撞机

在这里,简单的双变量回归将表明和之间没有依赖关系。这与DAG一致,DAG推断和之间没有直接因果关系。但是,基于的多变量回归条件将引起和之间的依赖关系,这表明两个变量之间可能存在直接因果关系,而实际上却不存在。多变量回归中包含导致对撞机偏差。XŸ žYXYZXYZ

第三,考虑一个偶然取消的例子:

消除

让我们假设,和是路径系数,并且。一个简单的双变量回归将表明和之间没有依赖关系。尽管实际上是的直接原因,但是对和的混杂影响偶然抵消了对。对多元回归条件将消除对和的混杂影响αβγβ=αγXYXYZXYXYZZXY,假设因果模型的DAG正确,则可以估算对的直接影响。XY

总结一下:

混杂因素示例: 和依赖于混杂变量变量回归和多变量回归条件。XYZ

对撞机示例: 和在双变量回归中是独立的,并且在对撞机上取决于多变量回归条件。XYZ

偶发抵消示例: 和在双变量回归中独立,并且在混杂因素上依赖于多变量回归条件。XYZ

讨论:

您的分析结果与混杂因素示例不兼容,但与对撞机示例和附带取消示例均兼容。因此,一个可能的解释是,你不正确的空调在撞机变量在多变量回归,并诱导之间的关联和即使是不是一个原因和是不是一个原因。或者,您可能已经正确地以多变量回归中的一个混杂因素为条件,这偶然抵消了双变量回归中对的真实影响。XYXYYXXY

我发现使用背景知识来构建因果模型,在考虑将哪些变量包括在统计模型中时会有所帮助。例如,如果以前的高质量随机研究得出结论,导致且导致,则我可以强有力地假设是和的碰撞者,而不是在统计模型中对其进行限制。但是,如果我仅凭直觉认为导致,而导致,却没有强有力的科学证据支持我的直觉,那么我只能做出一个微弱的假设,即XZYZZXYXZYZZ是和的碰撞体,因为人类的直觉有被误导的历史。随后,我将对推断和之间的因果关系持怀疑态度,而无需进一步研究它们与的因果关系。代替背景知识或除了背景知识之外,还有一些算法设计为使用一系列关联测试从数据推断因果模型(例如PC算法和FCI算法,有关Java实现,请参见TETRADPCalgXYXYZ用于R实施)。这些算法非常有趣,但是如果不对因果关系理论中因果演算和因果模型的功能和局限性有深入的了解,我就不建议依赖它们。

结论:

对因果模型的考虑不能使研究者无法解决此处其他答案中讨论的统计问题。但是,我认为因果模型仍然可以为思考统计模型中观察到的统计依赖性和独立性的潜在解释提供一个有用的框架,尤其是在可视化潜在的混杂因素和对撞机时。

进一步阅读:

吉尔曼,安德鲁。2011。“ 因果关系和统计学习”。上午。J. Sociology 117(3)(11月):955–966。

格陵兰,S,J Pearl和JM Robins。1999.“ 流行病学研究的因果关系图 ” 。《流行病学》(马萨诸塞州剑桥)10(1)(一月):37-48。

格陵兰,桑德。2003。“ 量化因果模型中的偏见:经典混淆与对撞机-分层偏见。”流行病学14(3)(5月1日):300–306。

珍珠,犹太。1998年。为什么没有关于混淆的统计检验,为什么许多人认为存在混淆,以及为什么他们几乎是正确的

珍珠,犹太。2009. 因果关系:模型,推理和推理。第二版。剑桥大学出版社。

Spirtes,Peter,Clark Glymour和Richard Scheines。2001。因果关系,预测和搜索,第二版。一本布拉德福德书。

更新: Judea Pearl在2012年11月版的《 Amstat新闻》中讨论了因果推理的理论以及将因果推理纳入入门级统计课程的必要性。他的图灵奖演讲题目为“因果推理的机械化:'迷你'图灵测试及以后”,也很有趣。


因果论据当然是有效的,但对于研究者来说,采用这种方法需要对潜在现象有很好的了解。我想知道@Behacad正在进行的分析是否只是探索性的。
JDav

1
@Behacad:如我的回答所述,我建议您不要考虑单个因为您的问题是多变量而不是双变量。要衡量您感兴趣的变量的影响,您需要控制其他可能导致x的影响力发生变化的变化来源。ρ
JDav

5
+1插图和说明非常清楚并且做得很好。感谢您(显然)为这个答案所做的努力和研究。
ub

1
另外,有人可以给我一个“第三,考虑附带取消的例子吗?”的实际例子。因果关系的问题出现了。如果X和Y不相关(即X的变化与Y的变化不相关”),那么我们怎么考虑这个“原因”。这正是我在另一个问题中想知道的问题!stats.stackexchange.com/questions / 33638 /…
Behacad

4
值得注意的是,它们还有一些替代名称:混杂->常见原因模型;对撞机->共同效果模型;&偶然取消是部分调解的特例。
gung-恢复莫妮卡

22

我认为@jthetzel的方法是正确的方法(+1)。为了解释这些结果,您将必须考虑/具有某种理论,以了解这种关系为何如此表现。也就是说,您将需要考虑构成数据基础的因果关系模式。您需要认识到,正如@jthetzel指出的那样,您的结果与几种不同的数据生成过程一致。我认为在同一数据集上进行任何数量的其他统计检验都不会让您区分这些可能性(尽管当然可以进行进一步的实验)。因此,在这里认真思考有关该主题的已知知识至关重要。

我想指出另一种可能产生与您类似的结果的潜在情况:抑制。使用箭头图很难说明这一点,但是如果我可以对其进行略微扩充,我们可以这样想:

在此处输入图片说明

在这种情况下重要的是,由两部分组成,一个不相关的(U)部分,一个相关的(R)部分。该抑制器将是不相关的Ÿ,但很可能是“显著”在多元回归模型。此外,其他变量可能与抑制子Y自身“显着”相关或不相关。此外,您的变量X可能起抑制器其他变量的作用Other VariableURSuppressorYOther VariableSuppressorYSuppressorOther Variable 在这种情况下(因此,同样,您需要根据对区域的了解来考虑潜在的模式)。

我不知道您是否可以阅读R代码,但这是我研究的示例。(此特定示例更适合X充当的角色,但两者与Y并不``显着''相关;应该有可能使Other VariableY之间的相关性接近0并使其他描述与正确的设置。) SuppressorYOther VariableY

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

我的意思不是说这种情况是您数据的基础。我不知道这是否比@jthetzel建议的可能性更大或更小。我仅将此作为提供更多思考的食物。要解释您当前的结果,您需要考虑这些可能性并确定最有意义的方法。为了确认您的选择,将需要进行仔细的实验​​。


2
优秀!谢谢。这是我的数据可能发生的另一个很好的例子。似乎我只能接受一个答案,但是…
Behacad 2012年

没问题,@ Behacad,我认为jthetzel应该打勾。我很乐意提供帮助。
gung-恢复莫妮卡

7

只是一些可视化是可能的。

在图片(a)上显示了 “正常”或“直观”的回归情况。此图片与此处此处找到(并说明)的示例相同。

YY^b

b1b2X1X2

在此处输入图片说明

X1YYX1YX2

X1YX1

与图(b)大致对应的数据和分析:

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

在此处输入图片说明

与图(c)大致对应的数据和分析:

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

在此处输入图片说明

X1Y.224X2.419.538


谢谢!它仍然感觉有点违反直觉,但至少你的照片显示它是可行的:)
JelenaČuklina

5

我同意先前的回答,但希望我可以通过提供更多详细信息做出贡献。

XYxy

Y=a+βx+u

ρ^yx=β^σ^x/σ^y

Y

Y=a+βx+jαjzj+u

βzjρρxy|zzj


ρρ
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.