y与x的线性回归与x与y的线性回归之间有什么区别?


97

无论您计算pearson(x,y)还是pearson(y,x),x和y的Pearson相关系数都相同。这表明在给定x的情况下对y进行线性回归或在给定y的情况下对x进行线性回归应该是相同的,但我认为情况并非如此。

当关系不对称时,有人可以阐明这个问题吗?它与皮尔逊相关系数(我一直认为这是总结最佳拟合线)之间有什么关系?


1
每个相关矩阵都是对称的,因为。我鼓励您进行数学计算,以确保确实如此。如果您知道和之间的关系(或任何感兴趣的变量)不是先验对称,那么使用其他分析方法可能会有所帮助。 x ycov(x,y)=cov(y,x)xy
菲利普·

14
有趣的观点是在一个相关的问题上,即简单线性回归中切换响应和解释变量的影响
chl 2012年

Answers:


159

考虑这一点的最好方法是想象一个点的散点图,其中纵轴为,横轴为。在此框架下,您会看到点云,这些点可能是模糊的圆形,也可能拉长到椭圆形。您要在回归中尝试做的事情就是找到可能被称为“最佳拟合线”的方法。但是,尽管这看起来很简单,但是我们需要弄清楚“最佳”的含义,这意味着我们必须定义一条线是好的,或者一条线要比另一条更好的是什么,等等。 ,我们必须规定损失函数Xyx。损失函数使我们可以说出某事物的“不良”程度,因此,当我们将其最小化时,我们使该行尽可能“良好”,或者找到“最佳”行。

传统上,当我们进行回归分析时,我们会找到斜率的估计值并进行拦截,以使平方误差最小。这些定义如下:

SSE=i=1N(yi(β^0+β^1xi))2

就散点图而言,这意味着我们正在最小化观察到的数据点与线之间的(平方和)垂直距离

在此处输入图片说明

另一方面,将回归到是完全合理的,但是在这种情况下,我们会将放在垂直轴上,依此类推。如果我们保持原样(水平轴上有),将回归到(再次使用上面的等式的稍微适应的版本,同时切换和)意味着我们将最小化水平距离之和ÿ X X X ÿ X ÿxyxxxyxy在观察到的数据点和直线之间。这听起来很相似,但不是完全一样的。(认识到这一点的方法是双向进行,然后将一组参数估计代数转换为另一项。将第一个模型与第二个模型的重排版本进行比较,很容易看出它们是不一样。)

在此处输入图片说明

请注意,如果有人递给我们一张上面画有点的方格纸,这两种方法都不会产生与我们直观绘制的相同的线条。在那种情况下,我们会画一条直线穿过中心,但是最小化垂直距离会产生一条稍微平坦的线(即,坡度更浅),而最小化水平距离会产生一条稍微陡峭的线。

相关是对称的;是与相关如是与。但是,可以在回归上下文中理解Pearson乘积矩的相关性。相关系数是两个变量都先标准化后的回归线斜率。也就是说,您首先从每个观察值中减去平均值,然后将差值除以标准差。数据点的云将现在原点为中心,斜率将您是否回归同一在,或到y y x r y x x yxyyxryxxy (但请注意下面@DilipSarwate的评论)。

在此处输入图片说明

现在,为什么这很重要?使用我们的传统损失函数,我们说所有误差都在一个变量中(即)。也就是说,我们说的测量没有误差,并且构成了我们关注的一组值,但是存在采样误差x yyxy。这与说反话有很大的不同。这在一个有趣的历史事件中很重要:在美国70年代末和80年代初,有一个案例表明在工作场所存在对妇女的歧视,这得到了回归分析的支持,该分析表明,背景相同的妇女(例如,资格,经验等)的报酬平均低于男性。评论家(或仅仅是那些非常透彻的人)认为,如果这是真的,那么与男子同等报酬的女性就必须具有更高的资格,但是当对此进行检查时,发现尽管结果是“显着的”,评估一种方式,当检查另一种方式时,它们并不“重要”,这使所有参与其中的人都感到头昏眼花。看这里 试图解决这个问题的著名论文。


(稍后更新) 这是另一种思考方法,它通过公式而不是通过视觉方式解决主题:

简单回归线的斜率公式是所采用的损失函数的结果。如果您正在使用标准的普通最小二乘损失函数(如上所述),则可以导出在每本入门教科书中看到的斜率公式。该公式可以以多种形式表示。我将其中之一称为斜率的“直观”公式。对于在上对进行回归的情况,以及在上对进行回归的情况,都考虑这种形式: yxxy

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
现在,我希望很明显,除非等于否则它们将是不一样的。如果方差相等的(例如,因为你第一次标准化的变量),那么这样的标准偏差,从而将方差也都等于。在这种情况下,等于Pearson的,这根据可交换性原理是相同Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(x,y)SD(x)SD(y)correlating x with y                           r=Cov(y,x)SD(y)SD(x)correlating y with x

2
+1表示最小化损失函数。垂直距离或水平距离的替代方法包括使用与直线或矩形区域的垂直距离,它们各自会产生不同的回归线。
亨利

7
我不认为该声明“的斜率是相同的,你是否回归在,或到 ”。是正确的,如果该约定是绘制上的水平轴和在垂直轴上。在这种情况下,斜率是彼此的倒数。如果我们遵循水平轴上自变量和垂直轴上因变量的约定,那么是的,两种方法的斜率都相同。但是按照这种惯例,垂直距离与水平距离的解释不适用;它始终是点与直线的垂直距离。yxxyxy
Dilip Sarwate 2012年

4
@DilipSarwate,您的意思是对的。我在使用术语“竖直”和“水平的”点是使视觉上明显的是,误差被理解为构想在抽样误差y,或在抽样误差x。如果我们在垂直轴上绘制并将回归到,则最小距离将是垂直的,但是最小误差仍将是采样误差。可能是我的答案不够清楚;如果可以想到更好的方法,可以进行编辑。xxyx
gung

1
您能说在关联的情况下,点和线之间的正交距离被最小化了吗?(我的意思是从点到“回归”线并正交于该线的线)。
vonjd '18年

1
培尔森的相关性不太适合@vonjd。事实证明,这与首先对数据进行标准化时所拟合的最小二乘线的斜率相等。当只有2个变量且首先对数据进行标准化时,第一个主成分是使正交距离最小的拟合线。HTH
Gung

12

我将用一些R代码和输出来说明答案。

首先,我们构造一个随机正态分布,y平均值为5,SD为1:

y <- rnorm(1000, mean=5, sd=1)

接下来,我有目的地创建第二个随机正态分布x,该正态分布只是y每个正态分布的5倍y

x <- y*5

通过设计,我们与x和具有完美的关联y

cor(x,y)
[1] 1
cor(y,x)
[1] 1

然而,当我们做了回归分析,我们正在寻找一个有关功能xy使回归系数的结果取决于我们作为因变量,我们使用作为独立变量使用哪一个。在这种情况下,我们不适合截距,因为我们做x了一个y没有随机变化的函数:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

因此,回归告诉我们y=0.2xx=5y,那当然是等效的。相关系数只是向我们显示,x和之间的单位变化水平完全匹配y,因此(例如)的1单位的增加y始终会导致的0.2单位的增加x


6

由于无论我们对x对y进行回归还是对x对y进行回归,皮尔逊相关性都是相同的见解,因此我们应该得到相同的线性回归也是一个良好的见解。它只是稍有不正确,我们可以使用它来了解实际发生的情况。

这是一条直线的方程式,这就是我们试图从回归中得出的结果

在此处输入图片说明

那条线的斜率方程由皮尔逊相关性驱动

在此处输入图片说明

这是皮尔逊相关性的方程式。我们是将x相对于y回归还是y相对于x回归都是一样的

在此处输入图片说明

但是,当我们回顾第二个斜率方程时,我们发现Pearson的相关性并不是该方程中的唯一项。如果我们要针对x计算y,我们还将y的样本标准偏差除以x的样本标准偏差。如果要计算x对y的回归,则需要将这两个项求逆。


4

在类似这样的问题上,很容易陷入技术问题,因此我想专门关注以下主题的问题:y的线性回归与x和y的线性回归之间有什么区别?

考虑一下人力资本理论的(简化的)计量经济模型(链接指向诺贝尔奖获得者加里·贝克尔的文章)。假设我们指定了以下形式的模型: 该模型可以解释为工资与教育之间的因果关系。重要的是,在这种情况下,因果关系意味着因果关系的方向从教育到工资,而不是相反。这在模型制定的方式中是隐含的。因变量是工资,自变量是受教育年限。

wages=b0+b1 years of education+error

现在,如果我们逆转计量经济学方程式(即,将x上的y更改为y上的x),则模型变为 在计量经济学方程式中的隐含含义是,我们说因果关系的方向从工资到教育。

years of education=b0+b1 wages+error

我敢肯定,您可以想到更多这样的示例(也在经济学领域之外),但是如您所见,当我们从将x上的y回归到y上的x时,模型的解释可能会发生很大变化。

因此,要回答这个问题:y与x的线性回归与y与x的线性回归之间有什么区别?,我们可以说,当我们在y上回归x而不是在x上回归y时,回归方程的解释会发生变化。我们不应该忽略这一点,因为具有声音解释的模型可以迅速转变为毫无意义的模型。


3

关于这个话题有一个非常有趣的现象。交换x和y后,尽管回归系数发生了变化,但是系数的t统计量/ F统计量和显着性水平没有变化。即使在多元回归中也是如此,在多元回归中,y与自变量之一交换。

这是由于F统计量与(部分)相关系数之间存在微妙的关系。这种关系确实触及线性模型理论的核心。我的笔记本中有关于此结论的更多详细信息:为什么交换y和x对p没有影响


您可能会发现以下螺纹有趣/混杂:在包含组预测回归交换X和Y
gung

2
文章“为什么交换y和x对p无效”不再在这里。您会重新添加吗?
JetLag

1

扩展@gung的出色答案:

在一个简单的线性回归皮尔森的绝对值可以被看作是在两个斜面的几何平均,我们得到,如果我们回归上和上分别: 我们可以得到直接使用 或 ryxxy

β^1yonxβ^1xony=Cov(x,y)Var(x)Cov(y,x)Var(y)=|Cov(x,y)|SD(x)SD(y)=|r|
r
r=sign(β^1yonx)β^1yonxβ^1xony
r=sign(β^1xony)β^1yonxβ^1xony

有趣的是,通过AM–GM不等式,可以得出两个斜率系数的算术平均值的绝对值大于(或等于)Pearson的绝对值: r

|12(β^1yonx+β^1xony)|β^1yonxβ^1xony=|r|


1

该关系不是对称的,因为我们正在解决两个不同的优化问题。可以写成解决以下问题:  Doing regression of y given x

minbE(YbX)2

而对于: ,可以将其重写为:doing regression of x given y min b EXbY2 x进行回归 

minbE(XbY)2

minb1b2E(YbX)2

还必须注意的是,两个外观不同的问题可能具有相同的解决方案。


1
尽管这是正确的(并且感谢您的观察),但您却使读者无所适从:您能否解释为什么这两个看起来不同的问题的解决方案必然有所不同?
whuber

1
你是对的。实际上,我已经考虑过了,但是找不到一种简单的方法(数学方法较少)来解释为什么两个解决方案必然有所不同,这就是为什么我试图使这两个问题尽可能相似。在这里,我只是想提供一种不同的观点。look
SiXUlm

最后一行与中间行等效吗?如果乘以1 / b ^ 2,则得到E(X-Y / b)^ 2而不是E(X-Yb)^ 2
奥斯汀·辛

@AustinShin实际上我在这里有点作弊。在中间一行,我取出,然后更改变量:,然后得出最后一行。b = 1 / bbb:=1/b
SiXUlm

+1:您现在已经明确提出了自己的观点!
ub

0

好吧,的确是这样,对于简单的双变量回归,两个方程的线性相关系数和R平方将相同。但是斜率将是r Sy / Sx或r Sx / Sy,除非r = 1,否则它们不是互为倒数。


1
“ ... or ” ...或更简洁地说,“ ...除非 ”r 2 = 11r2=1
Glen_b

-7

回归的基本思想可能是“因果关系”或“独立和依存关系”。在Y轴上放置自变量,在Y轴上放置因变量的通常做法是,用Y = mX + c表示。将斜率称为m(Y上的X)还是(X上的Y),将回归称为:(X上Y)或(X上Y)。它有两种处理方式,这不好,需要澄清。建模人员经常使用散点图来判断模拟序列是否与观察序列匹配;并且不可避免地要使用回归线。这里没有因果关系条款。依此必要性,线程提出的静音问题就成立了。或简单地说,请说明如何调用正态回归分析:X on Y; 或X上的Y,超出了因果关系。它不是主线程的答案;但这是一个平行的问题。


6
-1除了不连贯外,此答案还省略了在最佳答案中如此恰当地解释的关键思想:数据变化概率模型决定了回归是否有意义,并确定了哪个变量可以视为因变量。
ub

这位受访者可能会重申对惯用标签方面公认的标题不清楚的一种解释。对于形式为y = mx + b的问题,通常将关系描述为“ y在x上回归”(是)还是“ x在y上回归”(否)吗?可以在stats.stackexchange.com/questions/207425/…上回答术语问题。
InColorado
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.