我有大约5000个功能的数据集。对于这些数据,我首先使用卡方检验进行特征选择。之后,我得到了大约1500个变量,这些变量与响应变量之间显示出显着的关系。
现在,我需要对此进行逻辑回归。我正在为R使用glmulti软件包(glmulti软件包为vlm提供了有效的子集选择),但一次只能使用30个功能,否则其性能会下降,因为数据集中的行数约为20000。
是否有其他方法或技术可以解决上述问题?如果我采用上述方法,将需要太多时间来拟合模型。
sklearn
的LogisticRegression
,它在关于我的笔记本电脑一分钟解决了4000层的功能,2行的问题。