我从其他帖子中得知,不能将“重要性”或“重要性”归因于进入套索模型的预测变量,因为计算这些变量的p值或标准差仍在进行中。
在这种推理下,断言一个人不能说套索模型中排除的变量是“无关紧要”还是“无关紧要”是正确的吗?
如果是这样,对于套索模型中排除或包含的变量,我实际上能提出什么主张?在我的特定情况下,我通过重复10次交叉验证100次来选择调整参数lambda,以减少randonmess并平均误差曲线。
UPDATE1:我遵循以下建议,并使用引导程序示例重新运行套索。我试了100个样本(这是我的计算机功能可以在一夜之间解决的数量),并且出现了一些模式。我的41个变量中的2个进入模型的次数超过95%,3个变量超过90%,5个变量超过85%。当我使用原始样本运行模型时,这5个变量属于进入模型的9个变量,是当时系数值最高的变量。如果我运行带有1000个引导程序样本的套索并且保留了这些模式,那么呈现结果的最佳方法是什么?
1000个引导程序样本听起来是否足够?(我的样本大小为116)
我是否应该列出所有变量以及它们进入模型的频率,然后认为输入频率更高的变量更有意义?
就我所能要求的范围而言吗?因为它正在进行中(请参见上文),所以我不能使用截止值,对吗?
UPDATE2:根据以下建议,我计算出以下内容:平均而言,原始模型中的变量有78%进入了为100个自举样本生成的模型。另一方面,反之则只有41%。这在很大程度上与以下事实有关:为引导程序样本生成的模型往往比原始模型(9)包含更多的变量(平均17个)。
UPDATE3:如果你能帮助我解释我是从引导和蒙特卡罗模拟得到的结果,请看看这个其他职位。