95%置信区间的公式


13

我在stats.stackexchange上进行了搜索和搜索,但是找不到用于为线性回归计算值的95%置信区间的公式。有人可以提供吗?R2

更好的是,假设我在下面的R中运行了线性回归。如何使用R代码为R2值计算95%的置信区间。

lm_mtcars <- lm(mpg ~ wt, mtcars)

1
很好,您知道相关性rR ^ 2之间的关系R2是对相关系数求平方以得到R2那么为什么不计算r的置信区间r,然后对区间的上下限求平方呢?

1
@零:将在简单的线性回归中工作,即具有单个预测变量和截距。它不适用于具有多个预测变量的多重线性回归。
Stephan Kolassa,2015年

@StephanKolassa,非常正确!我想我是根据他的R代码建立的,那里只有一个回归变量,但是这很需要澄清。


您可以例如基于非中心F分布的属性使用非常小的R函数github.com/mayer79/R-confidence-intervals-R-squared
Michael M

Answers:


16

您随时可以引导它:

> library(boot)
> foo <- boot(mtcars,function(data,indices)
        summary(lm(mpg~wt,data[indices,]))$r.squared,R=10000)

> foo$t0
[1] 0.7528328

> quantile(foo$t,c(0.025,0.975))
     2.5%     97.5% 
0.6303133 0.8584067

Carpenter&Bithell(2000,医学统计)提供了自举置信区间的可读性介绍,尽管没有专门针对。R2


1
(+1)有趣的是@Durden引用的近似公式(,给出间隔。如果我们在该公式中减去乘以SE,那将几乎是完全正确的!n=32k=1(0.546,0.960)2
ub

可能还值得注意的是,您可以使用来从引导重采样分布中获得其他类型的置信区间(例如BCa)boot.ci()
杰弗里·吉拉德

7

在R中,您可以使用心理测验软件包CI.Rsq()提供的功能。至于适用的公式,请参阅Cohen等。(2003)行为科学的应用的多元回归/相关分析,p。88:

SER2=4R2(1R2)2(nk1)2(n21)(n+3)

然后,95%CI是您的。R2±2SER2


3
(1)在您的参考中平方。(2)必须注意,“ ”旨在作为样本值而非总体值(显然,“ ”在问题中所指的是潜在的混淆)。(3)同样重要的是,这只是一个渐近(“大样本”)结果,为“ ” 给出“足够的近似值”。(我相信计算一个截距加上自变量的数量。)看到仿真支持的工作示例非常有用,因为该间隔看起来太宽了。(1R2)R2R2nk1>60k+1
ub

根据Wishart(1931)的说法,该公式不适用于非正态分布。
abukaj
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.