请问 -squared有 -值?


18

我似乎对尝试理解平方值是否也具有p值感到困惑。prp

据我了解,与一组数据点线性相关,的取值范围是-11,无论该值是多少,它的p值都可以显示r是否与0显着不同(即,如果两个变量之间存在线性关系)。1r11pr0

继续进行线性回归,可以将函数拟合到数据,由等式Y=a+bXab (截距和斜率)也具有p以显示它们是否明显不同于0

假设我至今都明白了一切正确的,是p的-值rp为-值b一样的东西吗?那么说不是p值不是r平方而是p值是rb是否正确呢?

Answers:


14

除了由其他用户指出了许多(正确的)评论认为,p为-值r2是相同的p -值对全球F测试,请注意,您还可以得到p关联-值r2 “直接”使用零假设下的r2分布为\ textrm {Beta}(\ frac {v_n} {2},\ frac {v_d} {2})的事实Beta(vn2,vd2),其中vnvd是分子和分母自由度分别对应于相关的F统计量。

beta发行版上Wikipedia条目的“ 从其他发行版派生”小节中的第三个要点告诉我们:

如果Xχ2(α)Yχ2(β)是独立的,则XX+YBeta(α2,β2)

好了,我们可以写r2XX+Y形式。

假设是变量的平方总和,是在其他变量上的回归的平方误差的总和,是“减少的平方和”,即。然后 当然,和是平方和都以分布,分别具有和自由度。因此, Y S S E Y S S R S S R = S S YS S E r 2 = 1 S S ESSYYSSEYSSRSSR=SSYSSE

r2=1SSESSY=SSYSSESSY=SSRSSR+SSE
SSRSSEχ2vnvd
r2Beta(vn2,vd2)
(当然,我没有证明两个卡方是独立的。也许评论员可以对此发表意见。)

R中的演示(从@gung借用代码):

set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)

# Pearson's product-moment correlation
# 
# data:  x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
#  -0.2043606  0.6312210
# sample estimates:
#       cor 
# 0.2618393 

summary(lm(y~x))

# Call:
#   lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -1.6399 -0.6246  0.1968  0.5168  2.0355 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)   4.6077     0.4534  10.163 6.96e-09 ***
# x             1.1121     0.9662   1.151    0.265    
# ---
#   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared:  0.06856,  Adjusted R-squared:  0.01681 
# F-statistic: 1.325 on 1 and 18 DF,  p-value: 0.2648

1 - pbeta(0.06856, 1/2, 18/2)

# [1] 0.2647731

6

我希望第四个(!)答案能进一步阐明问题。

在简单的线性回归中,有三个等效检验:

  1. 协变量零总体斜率的t检验X
  2. t检验和响应之间的零总体相关性XY
  3. 零总体R平方的F检验,即,不同的不能解释的变异性。YX

所有这三个测试都检查和之间的线性关系,而且幸运的是(!),它们都导致相同的结果。他们的测试统计数据是等效的。(测试1和2基于 df 的学生分布,这与测试3的采样F分布相对应,仅具有平方测试统计量)。Y n 2XYn2

R中的一个简单示例:

# Input
set.seed(3)

n <- 100
X <- runif(n)
Y <- rnorm(n) + X

cor.test(~ X + Y) # For test 2 (correlation)

# Output (part)
# t = 3.1472, df = 98, p-value = 0.002184
# alternative hypothesis: true correlation is not equal to 0

# Input (for the other two tests)
fit <- lm(Y ~ X)
summary(fit)      

# Output (partial)
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -0.03173    0.18214  -0.174  0.86204   
X            1.02051    0.32426   3.147  0.00218 **
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.9239 on 98 degrees of freedom
Multiple R-squared:  0.09179,   Adjusted R-squared:  0.08253 
F-statistic: 9.905 on 1 and 98 DF,  p-value: 0.002184

如您所见,这三个测试产生相同的p值0.00218。请注意,测试3是输出的最后一行。

因此,您对R平方的F检验非常频繁,尽管很少有统计学家将其解释为对R平方的检验。


5

您似乎对我有体面的理解。我们可以得到一个为-值,但因为它是一个(非随机)函数,则 s就相同。 - [R 2 - [R ppr2rp


我不这么认为。将关于和的推论与来自OLS的关于和推论联系起来,如果不为零,则不管是什么,都是有意义的。但是,如果或不为零,则是有效的。这有助于可视化各个测试正在评估的内容。- [R 2 α β ρ β α - [R 2 α βρr2αβρβαr2αβ
AdamO 2014年

1
@AdamO,我无法听取您评论中的论点。与下面的Michael Mayer的帖子类似,在R try中:set.seed(111); x = runif(20); y = 5 + rnorm(20); cor.test(x,y); summary(lm(y~x))。r的p为.265。全局F检验的b&的p相同,即使a的p为6.96e-09
gung-恢复莫妮卡

就是我的意思。与不同,并且它们的值不相同。可能是的函数,但它甚至不是单调函数。当不存在时,可能很重要。什么的措施?这是绘制OLS趋势线并计算残差后的残差标准误差。在您的示例中,残差方差是否小于无条件方差?绝对。就很重要。您可以使用自举来计算操作特性,并且ANOVA与普通最小二乘法之间的连接也可以说明问题。r 2 p r 2 r r 2 r r 2 Y r 2rr2pr2rr2rr2Yr2
AdamO 2014年

4
您还可以使用以下事实获得与 “直接” 关联的值,即在零假设下分布为,其中和分别是相关统计量的分子和分母自由度。(请参见此处的第3个身份:en.wikipedia.org/wiki/…。)因此,使用@gung的示例数据,如果输入,则得到。r 2 r 2 B e t a v npr2r2vnvdFBeta(vn2,vd2)vnvdFR1 - pbeta(0.06856, 1/2, 18/2)0.2647731
杰克·韦斯特伦

4
@AdamO,我还是不明白。他们都是.265,他们怎么不一样?
恢复莫妮卡

4

有几种方法可以得出皮尔逊相关性测试的测试统计量。要获得值,值得强调的是,您需要在原假设下既需要检验又需要抽样检验统计量的分布。您的标题和问题似乎在Pearson相关性和“解释的方差”之间有些混淆。我将首先考虑相关系数。p - [R 2ρpr2

我知道,没有“最佳”方法可以测试皮尔逊相关性。Fisher的Z变换就是这种方法,它基于双曲变换,因此推理效率更高。这当然是一种“好的”方法,但令人遗憾的是,对此参数的推论与对关联的斜率参数推论是一致的:从长远来看,它们讲述的是同一故事。β

统计学家之所以(通常)完全偏爱检验,是因为我们确实有一个“最佳”检验:线性回归,这是BLUE估计量。在现代统计的时代,我们并不真正在乎测试是否是“最佳”,但是线性回归还有很多其他奇妙的特性,可以证明其继续用于确定两个变量之间的关联是合理的。通常,您的直觉是正确的:它们本质上是同一件事,我们将注意力集中在作为更实际的关联度量。βββ

的是斜率和截距两者的函数。如果这些值中的任何一个都不为零,则相对于线性参数为零时的预期采样分布,应该具有可辨别的采样分布。但是,在零下推导分布并在某些替代假设下与进行比较并不能给我太大的信心,因为该测试具有检测我们想要的能力。只是一种直觉。再次转向“最佳”估计器,OLS为我们提供了斜率和截距的“最佳”估计,因此我们确信我们的测试至少可以通过直接测试模型参数来确定相同(如果有)的关联。对我来说,共同测试r2r2r2r2α使用OLS的和优于任何关于测试,除了在极少数情况下(可能是)非嵌套预测建模校准应用程序之外……但是在这种情况下,BIC可能是更好的方法。βr2


1
“是斜率和截距的函数。” 也许我缺少了一些东西,但是...这不仅仅是斜率的函数吗?也许您可以提供具体的示范?r2
杰克·韦斯特伦

当然。回想一下,如果观察到的数据与趋势线完全一致,则。考虑“平坦的响应”的数据没有变化,但非零截距,所以所有元组的形式是对于所有。。确定系数可作为线性方程式预测能力的合理总结,获得这些预测既需要斜率也需要截距。r2=1(xi,β0)i{1,2,n}r2=1
AdamO 2014年

1

这与我解释事情的方式完全不同。我认为我永远不会为或计算值。和是模型的定性度量,而不是我们正在与分布进行比较的度量,因此值实际上没有任何意义。prr2rr2p

获得的值很有意义-这就是告诉您模型是否具有线性关系的原因。如果在统计上显着不同于则可以得出结论,变量之间存在线性关系。然后或告诉您模型解释数据差异的程度。如果为低,则您的自变量对解释因变量没有太大帮助。pbb0rr2r2

一个为-值告诉我们,如果拦截是统计上显著不同与否。取决于数据,这具有不同的用途。我最喜欢的示例:如果您在妊娠时间和出生体重之间进行线性回归,则可能会发现例如8盎司的截距,该截距在统计学上不同于。但是,由于截距代表周的胎龄,所以它实际上没有任何意义。pa000

如果真有人定期计算 -值对的我很乐意听取他们。pr2


4
仔细看看您最喜欢的回归命令的输出:它应该报告统计量和p值。这也是R 2的p值,因为FR 2直接单调相关。对于具有n个数据的普通回归,F = n - 2 R 2 /1 - R 2。其p值将是斜率的p值。因此,如果您曾经在普通回归中为b使用p值,则为R使用p值FR2FR2nF=(n2)R2/(1R2)bR2
whuber

在实践中,似乎人们没有考虑r或r ^ 2的意义。可能更有用的是围绕它们的置信区间。
N Brouwer 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.