如何解释套索模型中排除或包含的变量?


9

我从其他帖子中得知,不能将“重要性”或“重要性”归因于进入套索模型的预测变量,因为计算这些变量的p值或标准差仍在进行中。

在这种推理下,断言一个人不能说套索模型中排除的变量是“无关紧要”还是“无关紧要”是正确的吗?

如果是这样,对于套索模型中排除或包含的变量,我实际上能提出什么主张?在我的特定情况下,我通过重复10次交叉验证100次来选择调整参数lambda,以减少randonmess并平均误差曲线。

UPDATE1:我遵循以下建议,并使用引导程序示例重新运行套索。我试了100个样本(这是我的计算机功能可以在一夜之间解决的数量),并且出现了一些模式。我的41个变量中的2个进入模型的次数超过95%,3个变量超过90%,5个变量超过85%。当我使用原始样本运行模型时,这5个变量属于进入模型的9个变量,是当时系数值最高的变量。如果我运行带有1000个引导程序样本的套索并且保留了这些模式,那么呈现结果的最佳方法是什么?

  • 1000个引导程序样本听起来是否足够?(我的样本大小为116)

  • 我是否应该列出所有变量以及它们进入模型的频率,然后认为输入频率更高的变量更有意义?

  • 就我所能要求的范围而言吗?因为它正在进行中(请参见上文),所以我不能使用截止值,对吗?

UPDATE2:根据以下建议,我计算出以下内容:平均而言,原始模型中的变量有78%进入了为100个自举样本生成的模型。另一方面,反之则只有41%。这在很大程度上与以下事实有关:为引导程序样本生成的模型往往比原始模型(9)包含更多的变量(平均17个)。

UPDATE3:如果你能帮助我解释我是从引导和蒙特卡罗模拟得到的结果,请看看这个其他职位。

Answers:


10

您的结论是正确的。考虑两个方面:

  1. 检测效果的统计能力。除非功率非常高,否则您可能会错过真正的大型效果。
  2. 可靠性:找到正确(真实)特征的可能性很高。

至少有4个主要注意事项:

  1. 您使用相同的数据集是否可以重现该方法?
  2. 使用相同数据集的其他人是否可以重现该方法?
  3. 使用其他数据集可重现结果吗?
  4. 结果可靠吗?

当一个人想要做更多的事而不是预测,而实际上要得出结论,即哪些特征对预测结果很重要时,则3.和4.至关重要。

您已经解决了3.(为此目的,100个引导程序就足够了),但是除了各个要素包含分数之外,我们还需要知道引导程序功能集和原始所选功能集之间的平均绝对“距离”。例如,从整个样本中检测到的自举样本中发现的平均特征数量是多少?在原始分析中从引导程序样本中选择的平均特征数量是多少?引导程序找到与原始功能集完全匹配的次数的比例是多少?引导程序与原始版本完全一致的一项功能占多大比例?两个特点?

不能说得出总结论应使用任何临界值。

关于第4部分,这些都没有解决过程的可靠性,即功能集与“真实”功能集的距离如何。为了解决这个问题,您可以进行蒙特卡洛重新模拟研究,在该研究中,将原始样本套索结果作为“真相”,并使用某种假定的误差结构模拟新的响应向量数百次。对于每次重新模拟,您都在原始的整个预测变量矩阵和新的响应向量上运行套索,并确定所选套索特征集与您从其模拟的真相之间的接近程度。在整个候选预测变量集上重新模拟条件,并使用最初拟合的模型(在套索情况下为所选预测变量集)的系数估计作为方便的“真相”进行模拟。

为了在给定原始矩阵和现在真实的回归系数的情况下模拟新实现,可以使用残差方差并假设均值为零的正态性,或者甚至可以通过经验来保存原始拟合中的所有残差并进行引导从中将残差添加到每个模拟的已知线性预测变量。然后,从头开始运行原始建模过程(包括选择最佳罚分),并开发新模型。对于100次左右的迭代,将新模型与您要模拟的真实模型进行比较。ÿXXβ

再次,这是对过程可靠性的很好检查-查找“真实”功能并获得良好估计的能力。β

当为二进制时,代替处理残差,重新模拟包括从原始拟合中计算线性预测变量(例如,使用套索),进行logistic变换并为每个Monte Carlo模拟生成一个新的向量重新适应。在R中,例如ÿXβÿ

lp <- predict(...) # assuming suitable predict method available, or fitted()
probs <- plogis(lp)
y <- ifelse(runif(n) <= probs, 1, 0)

3
您应该事先声明,我应该问。您所推动的范围远远超出了可用信息所能支持的范围。这样想吧。对于二进制结果,为了仅估计二进制逻辑模型中的截距,您必须至少具有96个观测值。然后,每个候选预测变量大约需要15个事件(如果不加惩罚)。您的过程在将来的数据集中进行验证的可能性很小。另一种看待它的方式是,所有这些讨论都更加重要(相比于具有更大的)。ñ
弗兰克·哈雷尔

1
我指的不是自举。我指的是当您只有32个事件时,是否可以从数十个候选变量中学习任何东西。
弗兰克·哈雷尔

3
套索比大多数方法更合适,但样本量如此之小,可靠性就会下降。您通过使用套索而不是二次(岭; L2)罚分来要求简约。无疑,通过使用二次惩罚而不要求简约,您将获得更好的预测辨别力。或进行严重的数据缩减(掩盖为ÿ),然后拟合未经惩罚的普通模型。
2014年

1
做我建议的重新模拟实验,以检查您的精确设置中该方法的实际可靠性。
Frank Harrell 2014年

2
我需要结束这个讨论-您问题的基本答案是基本的R编程,还要看一下biostat.mc.vanderbilt.edu/rms中的简单模拟。
Frank Harrell 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.