总览
R2ρ2,则以下可以说:尽管这是用于数据生成处理,样本大小,预测和预测器条目的p值标准的集合的一些组合真实的,它是不正确的在所有情况下。
R2ρ2R2ρ2R2R2将显示相同的偏差。R2ρ2
我在不同条件下进行了一些模拟。产生近似无偏估计的预测变量输入的p值通常在.05和.0001之间。但是,我还没有阅读任何明确探讨此问题的模拟方法,也未提供建议,以期从已发布的逐步得出什么样的偏差R2使用给定的p值输入和给定的数据特征,值中。
R2ρ2ρ2不是仅仅希望在一个逐步回归项的p值恰好是正确的,以便导致大约无偏估计。
模拟
以下模拟具有四个不相关的预测变量,其中总体r平方为40%。其中两个预测变量分别解释20%,另外两个预测变量解释0%。该模拟生成1000个数据集,并估计每个数据集的逐步回归r-平方作为百分比。
# source("http://bioconductor.org/biocLite.R")
# biocLite("maSigPro") # provides stepwise regression function two.ways.stepfor
library(maSigPro)
get_data <- function(n=100) {
x1 <- rnorm(n, 0, 1)
x2 <- rnorm(n, 0, 1)
x3 <- rnorm(n, 0, 1)
x4 <- rnorm(n, 0, 1)
e <- rnorm(n, 0, 1)
y <- 1 * x1 + 1 * x2 + sqrt(3) * e
data <- data.frame(y, x1, x2, x3, x4)
data
}
get_rsquare <- function(x, alpha=.05) {
fit <- two.ways.stepfor(x$y, subset(x, select=-y), alfa=alpha)
class(fit) <-'lm'
summary.lm(fit)$r.square * 100
}
以下代码返回带有输入.01,.001,.0001和.00001的alpha值的r平方。
set.seed(1234)
simulations <- 1000
datasets <- lapply(seq(simulations), function(X) get_data(n=100))
rsquares01 <- sapply(datasets, function(X) get_rsquare(X, alpha=.01))
rsquares001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.001))
rsquares0001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.0001))
rsquares00001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.00001))
以下结果表明了五个alpha条目中每个条目的偏差。请注意,我已将r平方乘以100,以便更轻松地查看差异。
mean(rsquares01) - 40
mean(rsquares001) - 40
mean(rsquares0001) - 40
mean(rsquares00001) - 40
sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias
结果表明,条目.01和.001的alpha导致正偏差,条目.0001和.00001的alpha导致负偏差。因此,假设输入的alpha约为.0005,将导致无偏逐步回归。
> mean(rsquares01) - 40
[1] 1.128996
> mean(rsquares001) - 40
[1] 0.8238992
> mean(rsquares0001) - 40
[1] -0.9681992
> mean(rsquares00001) - 40
[1] -5.126225
> sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias
[1] 0.2329339
我从中得出的主要结论是,逐步回归并不固有地偏向特定方向。就是说,除了一个p值以外,对于所有其他预测变量,它至少都会有所偏差。我认为@Peter Flom的观点是,在现实世界中,我们不知道数据生成过程。但是,我想对这种偏差如何在输入的n,输入alpha,数据生成过程和逐步回归过程(例如,包括向后通过)等方面进行更详细的探索,可以从实质上帮助理解这种偏差。
参考文献
- Harrell,FE(2001)。回归建模策略:应用于线性模型,逻辑回归和生存分析。施普林格。