逐步逻辑回归和抽样


13

我正在对SPSS中的一组数据进行逐步逻辑回归。在此过程中,我将模型拟合到一个随机子集,该子集约为。样本总数的60%,约330例。

我发现有趣的是,每次重新采样数据时,最终模型中都会弹出不同的变量。最终模型中总是存在一些预测变量,但其他预测变量会根据样本而突然出现。

我的问题是这个。处理此问题的最佳方法是什么?我希望看到预测变量的收敛,但事实并非如此。从操作的角度来看,某些模型更具直觉意义(并且更容易向决策者解释),而其他模型则更适合数据。

简而言之,既然变数乱七八糟,那么您将如何建议我呢?

提前谢谢了。

Answers:


16

如果要使用逐步过程,请不要重采样。一劳永逸地创建一个随机子样本。对它执行分析。根据保留的数据验证结果。大多数“重要”变量可能不会变得很重要。

编辑12/2015:您确实可以通过重新采样,重复逐步过程并重新验证来超越这种简单方法:这将使您进入一种交叉验证的形式。但是在这种情况下,更复杂的变量方法选择,例如岭回归,套索和弹性网,可能比逐步回归更可取。)

CpFt

(我假设您已经进行了分析和探索,以找出自变量的适当重新表达,已经确定了可能的相互作用,并且已经确定因变量的对数之间确实存在近似线性关系和回归变量。如果没有,请进行必要的初步工作,然后返回逐步回归。)

顺便说一句,请谨慎遵循我刚才给出的一般建议:-)。您的方法应取决于分析的目的(预测,外推,科学理解,决策?)以及数据的性质,变量的数量等。


2
+1用于突出模型解释的重要性。我不会添加关于具有更复杂的交叉验证方案的不知情的ML方法(或集成方法)的任何信息,因为我觉得您已经在这里说了真正的要点:(1)通过重采样进行的特征选择很难孤立地解释(即,通过将一个结果与另一个结果进行比较),以及(2)这全都取决于我们是否在寻找预测模型或解释模型。
chl 2010年

感谢您的见解。我已经进行了一些预筛查以缩小搜索范围,而只是想找到具有最少变量的最佳预测模型。我仅将7个预测变量投入模型,据我所知,应该可以。我了解坚持样本的想法,但另一方面,我的模型有根本的不同,表明结果完全取决于样本,这让我停下来。
Btibert3 2010年

@ Btibert3对:当结果在数据的随机子集之间变化时,您可以将其作为证据表明自变量不是自变量的强预测子或一致预测子。
ub

12

一个重要的问题是“为什么为什么要使用尽可能少的变量的模型?”。如果您希望变量越少越好,以最小化模型在操作中的数据收集成本,那么whuber和mbq给出的答案就是一个很好的起点。

如果预测性能真的很重要,那么最好根本不进行任何特征选择,而改用正则逻辑回归(参见ridge回归)。实际上,如果预测性能是最重要的,我将使用袋装正则化logistic回归作为一种“带括号”策略,以避免过度拟合小数据集。Millar在其关于回归子集选择的书中在附录中提供了很多建议,而且我发现它对于具有许多功能且观察值不多的问题是极好的建议。

如果理解数据很重要,那么就不需要用于理解数据的模型与用于进行预测的模型相同。在那种情况下,我将对数据进行多次重采样,并查看样本中所选变量的模式,以找出哪些变量具有信息意义(如mbq所建议的,如果特征选择不稳定,则单个样本将无法提供完整的图片),但我仍将袋装正则化逻辑回归模型集成用于预测。


1
+1表示正则逻辑回归的指针。尚不清楚当多次对“数据”进行重采样时,如何才能正式“查看模式”。这听起来很像数据监听,因此可能导致沮丧和错误。
whuber

5
当选择不稳定时,特征选择将始终是挫折和错误的根源。仅使用一个样本就可以减少挫败感,但会增加出错的可能性,因为它鼓励您根据对您所看的特定样本最有效的方法得出关于问题相关特征的推论-这是一种过度配件。通过重新采样,您可以了解特征选择中的不确定性-这通常同样重要。在这种情况下,由于没有足够的数据,我们不应该对相关功能得出任何强有力的结论。
迪克兰有袋动物党

好点子; 我讨厌人们只从重采样中获得收益,这真是浪费。

10

通常,特征选择存在两个问题:

  • 最小最优,在其中寻找最小误差的最小变量集
  • 全部相关,在其中寻找与问题相关的所有变量

预测变量选择的融合在所有相关问题的领域中,这是非常困难的,因此需要比逻辑回归,繁重的计算和非常谨慎的处理更为强大的工具。

但是看来您在做第一个问题,所以您不必为此担心。通常我可以回答第二个问题,但是我不同意您应该放弃重采样的说法-在这里,这不是稳定特征选择的一种方法,但是,这将是用于模拟耦合特征选择+训练的性能的模拟,因此可以使您对准确性有信心。


+1我担心很多重采样只会造成混乱和误导。通过交叉验证或保留样本进行验证以受控方式进行重采样显然没有问题。
whuber

6

您可能会浏览Meinshausen和Buhlmann在JR Statist中发表的论文“ 稳定性选择”。Soc B(2010)72第4部分,及其后的讨论。他们考虑当您将数据点集随机随机分为两半并在每一半中寻找特征时会发生什么。通过假设您在一半中看到的与在另一半中看到的无关,则可以证明错误选择的变量的预期数量有界。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.