Answers:
除了由其他用户指出了许多(正确的)评论认为,为-值是相同的 -值对全球测试,请注意,您还可以得到关联-值 “直接”使用零假设下的分布为\ textrm {Beta}(\ frac {v_n} {2},\ frac {v_d} {2})的事实,其中和是分子和分母自由度分别对应于相关的统计量。
beta发行版上Wikipedia条目的“ 从其他发行版派生”小节中的第三个要点告诉我们:
如果和是独立的,则。
好了,我们可以写在形式。
假设是变量的平方总和,是在其他变量上的回归的平方误差的总和,是“减少的平方和”,即。然后 当然,和是平方和都以分布,分别具有和自由度。因此, Y S S E Y S S R S S R = S S Y − S S E r 2 = 1 − S S E
R中的演示(从@gung借用代码):
set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)
# Pearson's product-moment correlation
#
# data: x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
# -0.2043606 0.6312210
# sample estimates:
# cor
# 0.2618393
summary(lm(y~x))
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -1.6399 -0.6246 0.1968 0.5168 2.0355
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 4.6077 0.4534 10.163 6.96e-09 ***
# x 1.1121 0.9662 1.151 0.265
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared: 0.06856, Adjusted R-squared: 0.01681
# F-statistic: 1.325 on 1 and 18 DF, p-value: 0.2648
1 - pbeta(0.06856, 1/2, 18/2)
# [1] 0.2647731
我希望第四个(!)答案能进一步阐明问题。
在简单的线性回归中,有三个等效检验:
所有这三个测试都检查和之间的线性关系,而且幸运的是(!),它们都导致相同的结果。他们的测试统计数据是等效的。(测试1和2基于 df 的学生分布,这与测试3的采样F分布相对应,仅具有平方测试统计量)。Y n − 2
R中的一个简单示例:
# Input
set.seed(3)
n <- 100
X <- runif(n)
Y <- rnorm(n) + X
cor.test(~ X + Y) # For test 2 (correlation)
# Output (part)
# t = 3.1472, df = 98, p-value = 0.002184
# alternative hypothesis: true correlation is not equal to 0
# Input (for the other two tests)
fit <- lm(Y ~ X)
summary(fit)
# Output (partial)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.03173 0.18214 -0.174 0.86204
X 1.02051 0.32426 3.147 0.00218 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9239 on 98 degrees of freedom
Multiple R-squared: 0.09179, Adjusted R-squared: 0.08253
F-statistic: 9.905 on 1 and 98 DF, p-value: 0.002184
如您所见,这三个测试产生相同的p值0.00218。请注意,测试3是输出的最后一行。
因此,您对R平方的F检验非常频繁,尽管很少有统计学家将其解释为对R平方的检验。
您似乎对我有体面的理解。我们可以得到一个为-值,但因为它是一个(非随机)函数,则 s就相同。 - [R 2 - [R p
set.seed(111); x = runif(20); y = 5 + rnorm(20); cor.test(x,y); summary(lm(y~x))
。r的p为.265
。全局F检验的b&的p相同,即使a的p为6.96e-09
。
R
1 - pbeta(0.06856, 1/2, 18/2)
0.2647731
.265
,他们怎么不一样?
有几种方法可以得出皮尔逊相关性测试的测试统计量。要获得值,值得强调的是,您需要在原假设下既需要检验又需要抽样检验统计量的分布。您的标题和问题似乎在Pearson相关性和“解释的方差”之间有些混淆。我将首先考虑相关系数。p - [R 2
我知道,没有“最佳”方法可以测试皮尔逊相关性。Fisher的Z变换就是这种方法,它基于双曲变换,因此推理效率更高。这当然是一种“好的”方法,但令人遗憾的是,对此参数的推论与对关联的斜率参数推论是一致的:从长远来看,它们讲述的是同一故事。
统计学家之所以(通常)完全偏爱检验,是因为我们确实有一个“最佳”检验:线性回归,这是BLUE估计量。在现代统计的时代,我们并不真正在乎测试是否是“最佳”,但是线性回归还有很多其他奇妙的特性,可以证明其继续用于确定两个变量之间的关联是合理的。通常,您的直觉是正确的:它们本质上是同一件事,我们将注意力集中在作为更实际的关联度量。β
的是斜率和截距两者的函数。如果这些值中的任何一个都不为零,则相对于线性参数为零时的预期采样分布,应该具有可辨别的采样分布。但是,在零下推导分布并在某些替代假设下与进行比较并不能给我太大的信心,因为该测试具有检测我们想要的能力。只是一种直觉。再次转向“最佳”估计器,OLS为我们提供了斜率和截距的“最佳”估计,因此我们确信我们的测试至少可以通过直接测试模型参数来确定相同(如果有)的关联。对我来说,共同测试使用OLS的和优于任何关于测试,除了在极少数情况下(可能是)非嵌套预测建模校准应用程序之外……但是在这种情况下,BIC可能是更好的方法。
这与我解释事情的方式完全不同。我认为我永远不会为或计算值。和是模型的定性度量,而不是我们正在与分布进行比较的度量,因此值实际上没有任何意义。
获得的值很有意义-这就是告诉您模型是否具有线性关系的原因。如果在统计上显着不同于则可以得出结论,变量之间存在线性关系。然后或告诉您模型解释数据差异的程度。如果为低,则您的自变量对解释因变量没有太大帮助。
一个为-值告诉我们,如果拦截是统计上显著不同与否。取决于数据,这具有不同的用途。我最喜欢的示例:如果您在妊娠时间和出生体重之间进行线性回归,则可能会发现例如8盎司的截距,该截距在统计学上不同于。但是,由于截距代表周的胎龄,所以它实际上没有任何意义。
如果真有人定期计算 -值对的我很乐意听取他们。