为了简单的示例,假设有两个线性回归模型
- 模型1有三个预测,
x1a
,x2b
,和x2c
- 模型2具有从模型1 3个预测和两个附加的预测
x2a
和x2b
有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为
我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 作为估计量并进行引导,但是我不确定是否会适当的。
问题
- 是一个合理的估计?
- 如何获得总体r平方变化的置信区间(即)?
- 引导是否适合计算置信区间?
任何对模拟或已发表文献的引用也将受到欢迎。
范例程式码
如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
担心启动的原因
我对大约300个案例的一些数据进行了引导,在简单模型中使用了5个预测变量,在完整模型中使用了30个预测变量。尽管使用调整后的r平方差进行的样本估计为0.116
,但Boosterapped置信区间大部分为CI95%(0.095至0.214),并且自举的平均值与样本估计值相去甚远。相反,增强样本的平均值似乎集中在样本中r平方之间的差异的样本估计上。尽管事实上我使用的是样本调整后的r平方来估算差异。
有趣的是,我尝试了另一种计算为
- 计算样本r平方变化
- 使用标准调整后的r平方公式调整样本r平方变化
当应用于样本数据时,这会将的估计值减少到,但置信区间似乎适合于我首先提到的方法,CI95%(.062,.179),平均值为.118。.082
广义上讲,我担心自举假设样本是总体,因此估计过拟合的减少可能无法正常执行。