我有一个约有2,000个二进制变量/ 200,000行的数据集,我正在尝试预测一个二进制因变量。在此阶段,我的主要目标不是提高预测的准确性,而是确定其中哪些变量是重要的预测因子。我想将最终模型中的变量数减少到100个左右。
是否有相对快速的方法来获取最重要的变量?randomForest似乎要花费很长时间。
我不必全部使用200,000个观察值,因此采样是表上的一个选项。
通过“重要”而不是“准确”的预测变量,您是说要找到最能解释结果并帮助您建立理论的候选变量吗?如果是这样,则100个解释变量是一个非常大的数字-很大。理论建设和真正的解释(而不是单纯的预测),可能会要求您减少X的数量为10或15
—
rolando2
@ rolando2在某些应用程序中100根本不大。例如,关于高速宽带可及性的文献指出了大约150个变量(在数百个被分析的变量中),并且所有这些变量都是合理的:它们与工程的难易程度(地形,岩石类型,气候等)有关,与经济学有关。 (SES等),人口统计,当地交通基础设施的几何结构,政治(税收和商业环境)等。我相信许多经济模型同样可以包含数百个理论上重要的变量。
—
Whuber
@whuber-我正在考虑您的观点...您是否同意,需要一个不寻常的敬业,才华横溢且经验丰富的分析师来理清这么多变量所起的因果作用(而不仅仅是预测作用)?
—
rolando2 2011年
@rolando好的。2000变量是很多工作!
—
ub