当我通过交叉验证确定我的lambda时,所有系数都变为零。但是我从文献中得到一些暗示,一些预测因素肯定会影响结果。随意选择lambda以使稀疏性与人们所希望的一样多是垃圾吗?
我想从135个Cox模型中选择前10个左右的预测变量,不幸的是效果的大小很小。
当我通过交叉验证确定我的lambda时,所有系数都变为零。但是我从文献中得到一些暗示,一些预测因素肯定会影响结果。随意选择lambda以使稀疏性与人们所希望的一样多是垃圾吗?
我想从135个Cox模型中选择前10个左右的预测变量,不幸的是效果的大小很小。
Answers:
存在一种执行LASSO的好方法,但是使用固定数量的预测变量。这是Efron论文中描述的最小角度回归(LAR或LARS)。在迭代过程中,它创建了许多线性模型,每个新模型都有一个更多的预测变量,因此您可以选择一个具有所需数量的预测变量的模型。
另一种方法是或正则化。如Nestor所述,使用适当的先验条件可以将先验知识整合到模型中。Tipping所谓的相关向量机可能很有用。升2
不,那是没有根据的。设计模型选择程序要克服的最大障碍是,真正支持的基数未知。(这里有是“真”系数。)因为未知的是,模型选择过程必须详尽搜索所有可能的模型;但是,如果我们知道,我们可以只检查模型,该模型要少得多。β * | S * | 2 p | S * | ( p
套索的理论依赖于正则化参数足够大,以使所选模型足够稀疏。可能是您的10个功能太多或太少,因为将的下限变为的上限并不容易。λ | S * |
假设是我们对数据驱动的估算,然后将。然后,也许您正在尝试确保以便至少恢复了相关功能?或者,也许您正在尝试建立以便您知道所找到的功能都是值得的?在这些情况下,如果您事先有关于的相对大小的信息,那么您的过程将更加合理。 β *小号 ={Ĵ小号* ⊆小号小号 ⊆小号*小号*
另外,请注意,在执行套索操作时,您可以保留一些系数未变质的值glmnet
。