相关性假设与显着性回归斜率检验之间的假设差异


21

我的问题来自与@whuber的讨论,涉及另一个问题的评论。

具体来说,@ whuber的评论如下:

您可能会感到惊讶的一个原因是,相关检验和回归斜率检验所基于的假设是不同的,因此,即使我们了解到相关性和斜率确实在衡量同一事物,为什么它们的p值也应该相同?这表明,与简单地确定和在数值上是否相等相比,这些问题要深得多。β[Rβ

这引起了我的思考,我遇到了许多有趣的答案。例如,我发现了这个问题“ 相关系数的假设 ”,但是看不到如何澄清上面的评论。

我在简单的线性回归中找到了有关Pearson的和斜率的关系的更有趣的答案(例如,请参见此处此处),但它们似乎都没有回答@whuber在他的评论中所指的内容(至少不明显)。对我来说)。β[Rβ

问题1:相关性检验和回归斜率检验的假设是什么?

对于我的第二个问题,请考虑以下输出R

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

cor.test()函数的输出:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

lm()和的cov.test()输出可以看出,皮尔逊相关系数和斜率估计值()相差很大,分别为0.96和0.485,但是t值和p值相同。β 1[Rβ1个

然后,我还尝试查看是否能够计算和的t值,尽管和不同,它们是相同的。那就是我陷入困境的地方,至少对于:β 1 - [R β 1 - [R[Rβ1个[Rβ1个[R

使用和的平方总和,通过简单的线性回归计算斜率(): X ÿβ1个Xÿ

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

计算回归斜率的最小二乘估计值(在Crawley的R Book第一版,第393页中有对此的证明):β1个

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

计算的标准错误:β1个

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

以及的t值和p值:β1个

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

我现在不知道的是问题2,即如何使用而不是(也许是婴儿步骤)来计算相同的t值?β 1[Rβ1个

我假设由于cor.test()的替代假设是真实的相关性是否不等于0(请参见cor.test()上面的输出),所以我期望像Pearson相关系数除以“ Pearson相关系数的标准误差”(类似于以上)?!但是那个标准错误是什么,为什么呢?[Rb1/se.b1

也许这与相关测试和回归斜率测试所基于的上述假设有关

编辑(2017年7月27日):虽然@whuber为问题1提供了非常详细的解释(部分为问题2,请参见他的回答下的评论),但我进行了进一步的挖掘,发现这两篇文章(此处此处)确实可以显示一个特定的标准误差为,效果很好回答问题2,即重现T值给出:[R[R[R

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956

2
它是相同的测试,或者至少是等效的测试。如果您拒绝相关性不为零的假设,则测试也将拒绝斜率不为零的假设。
Michael R. Chernick

6
@Michael Right-但是这里有很多潜在的模型,而且它们截然不同。其中之一是用于相关的标准模型,其中最简单的是数据是来自某些未知双变量正态分布的样本。另一个是OLS模型的一种版本,用于将相对进行回归-有两种形式,固定回归和随机回归。另一个颠倒了和的角色。如果您有感觉,对于可比较的假设检验,它们应该产生相同的p值,那可能仅仅是通过广泛的熟悉,但是在直观上并不明显!X X YÿXXÿ
whuber

1
@whuber看到这个问题得到了很好的答复,但是缺乏令人满意的答案,我开始了一项悬赏计划,该计划今天已结束。现在处于宽限期。一个新的答案发布了,它很好地解释了“相关性-斜率”的计算,但是声称假设不存在差异,这与您引用的陈述相反。除非出现另一个答案,否则我的赏金将自动授予该新答案。如果您也考虑发布自己的答案,我会告诉您。
变形虫说莫妮卡(Monica)恢复职权

1
@amoeba谢谢;我没有注意到赏金。我写了引发此问题的评论时,部分记述了我的想法。我希望它代表了您所建议方向的一些进展。
ub

Answers:


5

介绍

此答复解决了这组问题的潜在动机:

相关检验和回归斜率检验的基础假设是什么?

但是,根据问题中提供的背景,我建议稍微扩展一下这个问题:让我们探讨相关性和回归的不同目的概念

通常在以下情况下调用关联

  • 数据是双变量的:每个“主题”或“观察”正好关联了两个不同的感兴趣值。

  • 数据是观察性的:两个值均未由实验者设置。两者都被观察或测量。

  • 兴趣在于识别,量化和测试变量之间的某种关系。

在以下位置使用回归

  • 数据是二元或多元的:可能有两个以上的不同关注值。

  • 兴趣集中在基于可能对其他子集(“独立”变量或“回归变量”)了解的变量子集(“因变量”或“响应”)上可以说些什么。

  • 回归器的特定值可能已由实验者设置。

这些不同的目标和情况导致了不同的方法。因为此线程关注它们的相似性,所以我们集中讨论它们最相似的情况:双变量数据。无论哪种情况,这些数据通常都将建模为随机变量。通常,两种形式的分析都试图对此变量进行相对简单的表征。Xÿ

相关性

我相信,“相关性分析”从来没有被普遍定义。它应该局限于计算相关系数,还是应该更广泛地考虑为包括PCA,聚类分析和其他涉及两个变量的分析形式?无论您的观点是狭义的还是宽泛的,也许您都同意以下描述适用:

相关性是一种对的分布进行假设的分析,而不会特权任何变量,并且使用该数据得出关于该分布的更具体的结论。Xÿ

例如,您可能首先假设具有二元正态分布,然后使用数据的Pearson相关系数来估计该分布的参数之一。这是最狭窄(也是最古老)的相关性概念之一。Xÿ

再举一个例子,您可能假设可以具有任何分布,并使用聚类分析来识别k个 “中心”。可能会得出这样的结论:作为X Y 分布解析为单峰双变量分布的混合的开始,每个集群一个。XÿķXÿ

所有这些方法的共同点是对Y的对称处理:两者都不享有特权。两者都扮演相同的角色。Xÿ

回归

回归有一个明确的,普遍理解的定义:

回归特征在于给定X(回归变量)时(响应)的条件分布。ÿX

从历史上看,回归历史可追溯至高尔顿的发现(C 1885年)是二元正常数据享受线性回归:的条件期望Ÿ是的线性函数X。在特殊一般频谱的一个极是普通最小二乘法(OLS)回归,其中的条件分布ÿ被假定为正常β 0 + β 1 X σ 2为固定的参数β 0β 1σXÿÿXÿβ0+β1个Xσ2β0β1个σ 根据数据进行估算。

在此频谱的极端通用范围内是广义线性模型,广义加性模型以及其他类似的模型,这些模型放宽了OLS的所有方面:可能允许的期望,方差甚至是条件分布的形状发生非线性变化与X。在所有这些概括中幸存下来的概念是,兴趣仍然集中在理解Y如何依赖X上。基本的不对称性仍然存在。ÿXÿX

相关和回归

两种方法都常见且经常遇到一种非常特殊的情况:双变量正态模型。在此模型中,数据散点图将采用经典的“足球”,椭圆形或雪茄形状:数据围绕正交的一对轴椭圆形分布。

  • 相关性分析着重于这种关系的“强度”,即在主轴上相对较小的分布是“强”的。

  • 如上所述,X上的回归(以及XY上的回归)是线性的:响应的条件期望是回归器的线性函数。ÿXXÿ

(值得考虑的是,这两个描述之间存在明显的几何差异:它们阐明了潜在的统计差异。)

在五个双变量正态参数中(两个均值,两个展布,还有一个用于测量两个变量之间的依存关系),一个是人们共同感兴趣的:第五个参数。它与(直接)相关ρ

  1. 系数中的回归ýXXÿX

  2. XY上的回归中的系数。ÿXÿ

  3. 回归2 )中的条件方差。1个2

  4. 在椭圆轴上的扩展(以方差度量)。Xÿ

相关分析集中于,而没有区分XY的作用。4Xÿ

回归分析集中于3 的版本,这些版本适合于回归变量和响应变量的选择。1个3

在这两种情况下,假设都有特殊的作用:它表示Y相对于X没有相关性也没有变化。因为(在这种简单的情况),这两个概率模型和零假设是共同的相关和回归,它应该是毫不奇怪,这两种方法共享相同的统计数据有兴趣(无论是所谓的“ [R ”或“ β ”); 这些统计数据的零抽样分布是相同的;(因此)假设检验可以产生相同的p值。H0ρ=0ÿX[Rβ^

这个通用的应用程序是每个人都学到的第一个应用程序,它可能使您很难认识到它们的概念和目标之间有多么不同的相关性和回归性。只有当我们了解它们的概括时,才可以发现潜在的差异。很难将GAM解释为提供有关“相关性”的大量信息,就像将聚类分析构造为“回归”的形式一样困难。两者是具有不同目标的不同程序族,如果适当地应用,则每个程序都有其自身的用处。


我希望这种相当普遍的和有些模糊审查照明其中一些方法的方式“这些问题深究下去不仅仅是是否β应该是数量相等。” 对这些差异的理解帮助我了解了各种技术正在试图实现什么,以及更好地利用它们来解决统计问题。[Rβ^


谢谢您胡布这个有见地的答案!正如@ matt-barstead的答案的评论中提到的那样,关于第二个问题,我确实遇到了的标准错误。我不太了解的是它的派生方式以及原因(类似于此处的问题)[R
Stefan

1
的SE 只能通过做出特定的分布假设来得出,例如X Y 是双变量正态。那时,这是积分微积分中的练习-对于这个问题,这不是一个具有启发性的事情。r的分布由Wikipedia引用,并在几何上从stats.stackexchange.com/a/85977/919导出[RXÿ[R
ub

然后,我将把这罐蠕虫放下一段时间:)感谢您的@whuber评论!
Stefan's

3

正如@whuber的回答所暗示的那样,在回归世界中可能存在许多模型和技术,它们在回归世界中没有明确的类似物,反之亦然。但是,总的来说,当人们思考,比较和对比回归与相关时,他们实际上是在考虑同一数学硬币的两个方面(通常是线性回归和皮尔逊相关)。他们是否应该对这两种分析家族都采取更广阔的视野,这是另外一个辩论,研究人员应该至少在最少的范围内进行角力。

XÿXÿ

在回归和相关性的这种狭narrow观点中,以下解释应有助于阐明它们的估计值,标准误差和p值如何以及为何本质上是彼此不同的。

数据帧datlongley上面引用的数据集,我们为cor.test获得了以下内容。(除非您跳过上述问题并直接阅读答案,否则这里没有新内容):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

线性模型的以下内容(也与上面相同):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

现在为这个答案的新组成部分。首先,创建EmployedPopulation变量的两个新的标准化版本:

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

其次,重新运行回归:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

瞧!回归斜率等于上方的相关系数。那么,问题1的答案是,这两个测试的假设基本上是相同的:

  1. 意见独立
  2. 之间的线性关系Xÿ
  3. Ëñ0σË2
  4. 误差项类似地分布在回归线的每个预测值处(即误差方差的同质性)

Xÿ

对于问题2,让我们从上面使用的回归斜率公式的标准误差开始(包含在R代码中,但在下面直接说明):

b=X一世-X¯ÿ一世-ÿ¯X一世-X¯2

bV一种[RbX一世=X一世-X¯ÿ一世=ÿ一世-ÿ¯

V一种[Rb=V一种[RX一世ÿ一世X一世2

从该公式中,您可以得到以下更简洁,更有用的表达式(有关详细信息,请参见此链接):

V一种[Rb=σË2X一世-X¯2
小号Ëb=V一种[Rb=σË2X一世-X¯2

σË2

我想您会发现,如果您针对未标准化和标准化(即相关)的线性模型求解此方程式,您的斜率将获得相同的p和t值。两种测试均依赖于普通最小二乘估计,并做出相同的假设。在实践中,许多研究人员都跳过了对简单线性回归模型和相关性的假设检验,尽管我认为对相关性进行检验更为普遍,因为许多人并不认为它们是简单线性回归的特殊情况。(注意:这不是采用的好习惯)


2
这个答案没有解决问题中转载的@whuber的引文,他声称假设是不同的。您是说这个说法是错误的吗?
变形虫说莫妮卡(Monica)恢复职权

如果遵循这些方程,则皮尔逊相关性具有与简单线性回归相同的基本假设。我可以修改我的回答以更清楚地说明这一点。
马特·巴斯特德

1
感谢您的回答!我知道标准化时的相关系数等于回归斜率。这在我的问题的链接3和4中显示。我也知道您列出的一般假设,这就是@whuber的评论让我思考的原因,从而导致了这个问题。我应该明确指出我知道哪些假设-道歉。
Stefan'7

1
[R[Rr <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956


0

关于问题2

如何使用r代替β1计算相同的t值

Ť[RF[R

F=[R2/ķ1个-[R2/ñ-ķ

ķ=2ñ=d一种Ť一种pØ一世ñŤs

有了限制

...当模型没有截距时,无法使用F比

资料来源:多元回归模型中的假设检验


1
我回头看了原始帖子,以确定您可能要回答的问题。我发现了两个,编号分别为1(关于假设)和2(关于计算t值),但是这个答案似乎都无法解决。您能否更明确地告诉我们您正在回答什么问题?
ub

1
[R

1
我想我理解,也许我是在特定情况下而不是一般情况下回答问题。我认为,能够以一般的无效假设和替代假设来陈述该问题,以便能够考虑这种一般情况,这是有用的,因为我正为此努力。
哈里·萨蒙

我同意:针对相关性和回归分析展示清晰的模型和决策标准将有助于区分它们。有时候,一个好的答案只不过是重新定义或阐明问题而已,而最好的答案往往始于对问题的有效重述,因此不要害怕朝这个方向发展。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.