我想使用选择模型regsubsets()
。我有一个名为olympiadaten的数据框(上传的数据:http : //www.sendspace.com/file/8e27d0)。我首先附加此数据框,然后开始分析,我的代码是:
attach(olympiadaten)
library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp +
Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")
summary(lm(Gesamt~ExpHealth))
情节的屏幕截图:
现在的问题是,我想再次“手动”拟合最佳模型并进行查看,但是调整后的R平方的值与regsubsets输出中的值不同吗?其他模型也是如此,例如,当我在图形中执行最简单的模型时:
summary(lm(Gesamt~ExpHealth))
该图表示,它的调整后R平方应约为0.14,但是当我查看输出时,得到的值为0.06435。
这是输出summary(lm(Gesamt~ExpHealth))
:
Call:
lm(formula = Gesamt ~ ExpHealth)
Residuals:
Min 1Q Median 3Q Max
-18.686 -9.856 -4.496 1.434 81.980
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.0681 6.1683 -0.497 0.6203
ExpHealth 1.9903 0.7805 2.550 0.0127 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.71 on 79 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.07605, Adjusted R-squared: 0.06435
F-statistic: 6.502 on 1 and 79 DF, p-value: 0.01271
我不知道自己做错了什么,我们将不胜感激。
最后但并非最不重要的是,还有其他一些问题:
- 通过AIC和通过adj选择模型之间有什么区别?R平方?
- 两者都测量拟合度并识别变量数,因此AIC选择的最佳模型和调整次数最高的模型都不是。r平方?
- 当我有12个变量时,这意味着 模型的可能性,对不对?
- 那么该
regsubsets()
命令是否计算每个模型并显示nbest=2
每个尺寸的两个最佳值()? - 如果是这样,我真的得到了“最佳”模型吗?
- 而且,当我使用向后选择(从包含所有变量的模型开始)进行AIC时,是否还会得到
regsubsets()
说最好的模型呢?