Answers:
如果要使用逐步过程,请不要重采样。一劳永逸地创建一个随机子样本。对它执行分析。根据保留的数据验证结果。大多数“重要”变量可能不会变得很重要。
(编辑12/2015:您确实可以通过重新采样,重复逐步过程并重新验证来超越这种简单方法:这将使您进入一种交叉验证的形式。但是在这种情况下,更复杂的变量方法选择,例如岭回归,套索和弹性网,可能比逐步回归更可取。)
(我假设您已经进行了分析和探索,以找出自变量的适当重新表达,已经确定了可能的相互作用,并且已经确定因变量的对数之间确实存在近似线性关系和回归变量。如果没有,请进行必要的初步工作,然后返回逐步回归。)
顺便说一句,请谨慎遵循我刚才给出的一般建议:-)。您的方法应取决于分析的目的(预测,外推,科学理解,决策?)以及数据的性质,变量的数量等。
一个重要的问题是“为什么为什么要使用尽可能少的变量的模型?”。如果您希望变量越少越好,以最小化模型在操作中的数据收集成本,那么whuber和mbq给出的答案就是一个很好的起点。
如果预测性能真的很重要,那么最好根本不进行任何特征选择,而改用正则逻辑回归(参见ridge回归)。实际上,如果预测性能是最重要的,我将使用袋装正则化logistic回归作为一种“带括号”策略,以避免过度拟合小数据集。Millar在其关于回归子集选择的书中在附录中提供了很多建议,而且我发现它对于具有许多功能且观察值不多的问题是极好的建议。
如果理解数据很重要,那么就不需要用于理解数据的模型与用于进行预测的模型相同。在那种情况下,我将对数据进行多次重采样,并查看样本中所选变量的模式,以找出哪些变量具有信息意义(如mbq所建议的,如果特征选择不稳定,则单个样本将无法提供完整的图片),但我仍将袋装正则化逻辑回归模型集成用于预测。
通常,特征选择存在两个问题:
预测变量选择的融合在所有相关问题的领域中,这是非常困难的,因此需要比逻辑回归,繁重的计算和非常谨慎的处理更为强大的工具。
但是看来您在做第一个问题,所以您不必为此担心。通常我可以回答第二个问题,但是我不同意您应该放弃重采样的说法-在这里,这不是稳定特征选择的一种方法,但是,这将是用于模拟耦合特征选择+训练的性能的模拟,因此可以使您对准确性有信心。
不要逐步使用!看我的论文