什么是逐步回归的现代易用替代方法?


76

我有一个包含约30个独立变量的数据集,并希望构建一个广义线性模型(GLM)来探索它们与因变量之间的关系。

我知道,我在这种情况下所教的方法,逐步回归,现在被认为是统计上的罪过

在这种情况下应使用哪些现代的模型选择方法?


4
其他人提到统计程序可能会有所帮助,但我首先会问您是否对变量之间关系的强度和形状有任何理论。您的样本多大?您是否有理由避免使用复杂的模型?
Michael Bishop

2
有没有人考虑将模型平均作为解决预测试偏差问题和遗漏规范问题的替代方法?粗略地说,所有变量都是潜在的预测因素,您可以估计它们有用的可能性。因此,组合估计器不仅可以改善预测性能,而且可以针对“作用域”下的变量参数产生良好的属性估计。
Dmitrij Celov

1
收缩率。没人希望再逐步使用
Aksakal

Answers:


56

逐步回归的几种选择。我见过的最常用的是:

  • 专家意见,以确定将哪些变量包括在模型中。
  • 偏最小二乘回归。本质上,您将获得潜在变量并对其进行回归。您也可以自己进行PCA,然后使用主要变量。
  • 最小绝对收缩和选择算子(LASSO)。

无论PLS回归套索在R封装中实现像

PLShttp : //cran.r-project.org/web/packages/pls/

LARShttp : //cran.r-project.org/web/packages/lars/index.html

如果您只想探索因变量和自变量之间的关系(例如,您不需要统计显着性检验),我还建议您使用机器学习方法,例如随机森林分类/回归树随机森林还可以近似化您的因变量和自变量之间的复杂非线性关系,而线性技术(如线性回归)可能无法揭示这些关系。

机器学习的一个很好的起点可能是CRAN上的机器学习任务视图:

机器学习任务视图http : //cran.r-project.org/web/views/MachineLearning.html


10
glmnet软件包也是套索的一种非常快速的实现
David J. Harris

2
我要警告的是,在潜在变量社区中,PLSers形成了自己的非常孤立的集团,并且永远无法渗透严肃的文学作品(例如,我的意思是说,迈克尔作品中的最小二乘估计量的渐近理论Browne,Peter Bentler,Albert Satorra和Alex Shapiro,以及Ken Bollen的工具变量建模(仅举几个最重要的模型)。但是奇怪的是,PLS在统计界似乎是一种可以接受的方法,与潜在变量建模社区相比,PLS通常坚持更高的严格标准。
StasK,2011年

6
统计学习要素比较了不同端变量选择和收缩方法:(OLS)最佳子集,岭,套索,PLS,PCR。
cbeleites 2012年


16

模型平均是一种可行的方法(信息论方法)。R包glmulti可以对预测变量的每种组合执行线性模型,并对这些结果执行模型平均。

参见http://sites.google.com/site/mcgillbgsa/workshops/glmulti

但是不要忘了先研究预测变量之间的共线性。方差膨胀因子(在R包“ car”中提供)在这里很有用。


谢谢。它真的适合所有可能的模型吗?即使没有交互,在这种情况下也大约有十亿个模型。
彼得·埃利斯

可以使用AFAIK,但是有一个遗传算法选项可以大大减少评估所有模型所需的时间。参见www.jstatsoft.org/v34/i12/paper
OliP

3
同时MuMInAICcmodavg包,虽然glmulti是关于大模型套聪明。
本·博克

8

@johannes提供了一个很好的答案。如果您是SAS用户,则可通过PROC GLMSELECT获得LASSO,并通过PROC PLS获得局部最小二乘。

我和David Cassell在几个SAS用户组中做了有关LASSO(和最小角度回归)的演讲。在这里可用


7

有趣的讨论。将逐步回归标记为统计罪是一种宗教性的陈述-只要人们知道他们在做什么并且该练习的目标是明确的,这绝对是一种具有自己的假设的好方法,并且肯定是有偏见,并且不能保证最优性等。然而,我们所做的许多其他事情也可以这样说。我没有看到CCA被提及,它解决了协变量空间中相关结构的更基本问题,确实保证了最优性,已经存在了相当多的时间,并且具有一定的学习曲线。它在包括R在内的各种平台上实现。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.