我有一个包含约30个独立变量的数据集,并希望构建一个广义线性模型(GLM)来探索它们与因变量之间的关系。
我知道,我在这种情况下所教的方法,逐步回归,现在被认为是统计上的罪过。
在这种情况下应使用哪些现代的模型选择方法?
我有一个包含约30个独立变量的数据集,并希望构建一个广义线性模型(GLM)来探索它们与因变量之间的关系。
我知道,我在这种情况下所教的方法,逐步回归,现在被认为是统计上的罪过。
在这种情况下应使用哪些现代的模型选择方法?
Answers:
有逐步回归的几种选择。我见过的最常用的是:
无论PLS回归和套索在R封装中实现像
PLS:http : //cran.r-project.org/web/packages/pls/和
LARS:http : //cran.r-project.org/web/packages/lars/index.html
如果您只想探索因变量和自变量之间的关系(例如,您不需要统计显着性检验),我还建议您使用机器学习方法,例如随机森林或分类/回归树。随机森林还可以近似化您的因变量和自变量之间的复杂非线性关系,而线性技术(如线性回归)可能无法揭示这些关系。
机器学习的一个很好的起点可能是CRAN上的机器学习任务视图:
机器学习任务视图:http : //cran.r-project.org/web/views/MachineLearning.html
模型平均是一种可行的方法(信息论方法)。R包glmulti可以对预测变量的每种组合执行线性模型,并对这些结果执行模型平均。
参见http://sites.google.com/site/mcgillbgsa/workshops/glmulti
但是不要忘了先研究预测变量之间的共线性。方差膨胀因子(在R包“ car”中提供)在这里很有用。
MuMIn
,AICcmodavg
包,虽然glmulti
是关于大模型套聪明。