我有一个包含330个样本和每个样本27个特征的数据集,以及Logistic回归的二元类问题。
根据“十个规则”,每个功能至少需要包含10个事件。虽然,我有一个不平衡的数据集,有20%的正类和80%的负类。
这仅给我70个事件,因此Logistic模型仅包含大约7/8个功能。
我想将所有功能评估为预测器,但我不想手工选择任何功能。
那你有什么建议呢?我应该将所有7种功能组合在一起吗?我应该使用关联模型单独评估每个功能,然后只为最终模型选择最佳功能吗?
我也对分类和连续特征的处理感到好奇,可以混合使用吗?如果我有类别[0-1]和连续[0-100],我应该归一化吗?
我目前正在使用Python。
非常感谢你的帮助!
“我也对分类和连续特征的处理感到好奇”,我认为这将是一个单独的问题。实际上,这里已经有人问过了。
—
E_net4邮政保洁员
没有足够的样本和不相关的特征之间是有区别的。由于一些简单的规则,我不会过多地专注于选择恰好7个功能...
—
oW_
无论如何都要做:使用交叉验证来优化正则化。我建议使用弹性网(L1 + L2)。
—
Emre