我的情况:
- 小样本数量:116
- 二元结果变量
- 解释变量的长列表:44
- 解释变量并非来自我的头上;他们的选择基于文献。
- 样本中的大多数情况和大多数变量的值都缺失。
选择特征的方法:LASSO
R的glmnet程序包不允许我运行glmnet例程,这显然是由于我的数据集中缺少值。似乎有多种方法可以处理丢失的数据,所以我想知道:
- LASSO是否对我可以使用的估算方法施加任何限制?
- 插补方法的最佳选择是什么?理想情况下,我需要一种可以在SPSS(最好)或R上运行的方法。
UPDATE1:从下面的一些答案中可以明显看出,在考虑插补方法之前,我确实处理了一些更基本的问题。我想在此添加新的问题。在回答中建议将其编码为常数值并创建一个新变量,以处理“不适用”值和组套索的用法:
- 您是否可以说,如果我使用组LASSO,我将能够对连续预测变量和分类预测变量使用建议的方法?如果是这样,我认为这相当于创建一个新类别-我很警惕这可能会带来偏差。
- 有人知道R的glmnet软件包是否支持组LASSO吗?如果没有,有人会建议将逻辑回归与之结合的另一种方法吗?在CRAN资料库中可以找到提及LASSO组的几个选项,最适合我的情况的建议是什么?也许是SGL?
这是我的上一个问题(如何从我的原始长列表中选择变量的子集以执行逻辑回归分析?)的后续文章。
OBS:我不是统计学家。