相关和简单线性回归之间有什么区别?


Answers:


114

什么是之间的相关性之间的差异和和线性回归预测从?Y Y XXYYX

首先,一些相似之处

  • 标准化回归系数与Pearson相关系数相同
  • 在简单线性回归中,Pearson相关系数的平方与相同R2
  • 简单的线性回归和相关都不能直接回答因果关系问题。这一点很重要,因为我遇到了一些认为简单回归可以神奇地推断导致。ÿXY

第二,一些差异

  • 回归方程(即)可用于基于值对进行预测Y Xa+bXYX
  • 尽管相关性通常是指线性关系,但它可以涉及其他形式的相关性,例如多项式或真正的非线性关系
  • 虽然相关通常是指Pearson的相关系数,但还有其他类型的相关,例如Spearman的相关。

您好Jeromy,谢谢您的解释,但是我在这里还有一个问题:如果我不需要做出预测,只是想知道两个变量有多接近以及在哪个方向/强度上该怎么办?使用这两种技术还有什么不同?
yue86231 2014年

3
@ yue86231然后听起来相关性度量会更合适。
Jeromy Anglim 2014年

5
(+1)对于相似点,可能需要添加假设“ correlation = 0”或等效地为“ slope = 0”(以任意顺序进行回归)的标准检验,例如由lmcor.test在中进行R,将产生相同的p值。
whuber

3
我同意应该添加@whuber的建议,但在非常基本的水平上,我认为值得指出的是回归斜率的符号和相关系数相等。这可能是大多数人了解关联与“最佳拟合线”之间的关系的第一件事(即使他们还不称其为“回归”),但我认为这是值得注意的。对于差异,您可能需要提及以下事实:您的答案相关性X与Y相同,反之亦然,但是X上Y的回归与Y上X的回归不同。
银鱼

36

这是我在graphpad.com网站上发布的答案:

相关性和线性回归并不相同。考虑以下差异:

  • 相关性量化了两个变量相关的程度。相关不适合数据中的任何一条线。
  • 通过相关性,您不必考虑因果关系。您只需量化两个变量之间相互关联的程度即可。进行回归分析时,您必须考虑因果关系,因为确定回归线是从X预测Y的最佳方法。
  • 使用关联,将两个变量中的哪个称为“ X”和将哪个变量称为“ Y”并不重要。如果将两者交换,则将获得相同的相关系数。使用线性回归时,决定将哪个变量称为“ X”和将哪个变量称为“ Y”非常重要,因为如果将二者互换,则会得到不同的最佳拟合线。从X最好地预测Y的线与从Y最好地预测X的线不同(除非您拥有完美的数据且没有散乱)。
  • 当您测量两个变量时,几乎总是使用关联。当您通过实验操作某个变量时,这种方法很少适用。使用线性回归时,通常可以通过实验操作X变量(时间,浓度...),而可以测量Y变量。

13
“从X预测Y的最佳方法”与因果关系无关:X可能是Y的原因,反之亦然。可以从因果推论(推论)或从因果推论(绑架)。
Neil G

4
“如果将两者交换,将会得到不同的最佳拟合线”,这有点误导;两种情况下的标准斜率将相同。
xenocyon

26

在线性回归的单个预测变量情况下,标准化斜率与相关系数具有相同的值。线性回归的优势在于,可以以一种方式描述关系,从而可以根据给定的预测变量的任何特定值,基于两个变量之间的关系预测预测变量的得分。尤其是线性回归给您的一条信息是,相关性不是截距,即预测变量为0时预测变量上的值。

简而言之-它们在计算上产生相同的结果,但是有更多的元素能够在简单的线性回归中解释。如果您只想简单地描述两个变量之间的关系的大小,请使用相关性-如果您希望根据特定值来预测或解释结果,则可能需要回归。


“特别是线性回归给您的一条信息是相关性不是截距”……相差很大!
SIslam '16

好吧,回顾一下,回归确实提供了一个截距,这是真的,因为它是许多统计信息包默认的截距。无需拦截即可轻松计算出回归。
russellpierce

:是的,人们可以很容易地计算出一个回归,而不拦截,但它很少会是有意义的 stats.stackexchange.com/questions/102709/...
的Kjetil b Halvorsen的

@kjetilbhalvorsen除非我在安装标准坡度时已经描述过,否则。在标准回归方程中,截距项始终为0。为什么?因为IV和DV均已标准化为单位分数-结果截距定义为0。这正是您在答案中描述的情况。(相当于标准化IV和DV)。当IV和DV都标准化为0时,截距定义为
0。– russellpierce

11

相关分析仅量化两个变量之间的关系,而忽略哪个是因变量和哪个是独立变量。但是在应用回归之前,您必须校准要检查哪个变量对另一个变量的影响。


9

到目前为止,所有给出的答案都提供了重要的见解,但不应忘记,您可以将一个参数转换为另一个参数:

y=mx+b

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

因此,您可以通过缩放和移动它们的参数来相互转换。

R中的一个示例:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196

3

从相关性我们只能得到一个描述两个变量之间线性关系的索引。在回归中,我们可以预测两个以上变量之间的关系,并可以使用它来识别哪些变量x可以预测结果变量y


3

引用奥特曼(Altman DG)的话,“医学研究的实用统计学”,查普曼和霍尔,1991年,第321页:“相关将一组数据简化为一个与实际数据没有直接关系的数。回归是一种更有用的方法,结果显然与获得的测量结果有关。这种关系的强度是明确的,并且可以从置信区间或预测区间清楚地看到不确定性。”


3
尽管我很同情奥特曼(Altman),在许多情况下,回归方法通常比关联性更合适,但这种引用正在引起人们的争论。在OLS回归中,所产生的信息等效于相关计算所提供的信息(所有第一和第二个双变量矩及其标准误差),并且相关系数提供的信息与回归斜率相同。两种方法在它们假定的基础数据模型和解释上有所不同,但在Altman要求的方式上并没有什么不同。
ub

1

回归分析是一种研究两个变量之间关系的成因的技术。而相关分析是研究量化两个变量之间关系的一种技术。


6
欢迎来到简历!既然已经有很多关于此问题的答案,您是否想看看它们并查看您的内容是否添加了新内容?如果您还有更多话要说,可以对其进行编辑。
Scortchi

0

相关性是关系强度的指标(仅一个数)。回归分析是对特定功能关系的适当性进行的分析(模型参数的估计及其重要性的统计检验)。相关的大小与回归预测的精确度有关。


1
不,这不对。相关性为我们提供了有限的关系,但与预测的精确度无关。R2给出了。
SmallChess 2015年

-3

相关是统计中的一个术语,它确定两个之间是否存在关联,然后确定关联的程度。范围是-1至+1。而回归意味着回到平均水平。从回归中,我们通过保持一个变量与另一个变量无关来预测值,但应阐明我们要预测哪个变量的值。


6
您好,@ shakir,欢迎来到交叉验证!您可能已经注意到,这是一个古老的问题(从2010年开始),并且已经给出了七个(!)答案。确保您的新答案为讨论增加了以前没有涉及的重要内容,这将是一个好主意。目前,我不确定情况是否如此。
变形虫
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.