LASSO用于解释性模型:参数是否缩小?


9

我正在进行分析,其主要目标是了解数据。数据集足够进行交叉验证(10k),并且预测变量包括连续变量和虚拟变量,并且结果是连续的。主要目标是查看踢出一些预测变量是否有意义,以使模型更易于解释。

问题:

  1. 我的问题是“哪些变量解释了结果,并且是该解释的“足够强的”部分”。但是要为套索选择lambda参数,可以使用交叉验证,即预测有效性作为准则。在进行推断时,预测效度是否足以代替我要问的一般问题?

  2. 说LASSO仅保留了8个预测变量中的3个。现在我问自己:“这些对结果有什么影响”。例如,我发现了性别差异。套索收缩后,该系数表明女性得分比男性高1分。但是没有缩水(即在实际数据集上),它们的得分高出2.5分。

    • 我将哪一个作为我的“真实”性别效果?仅根据预测效度,它将是收缩系数。
    • 或者说,我正在为不精通统计的人们编写报告。我要向他们报告哪个系数?

1
您正在寻找什么样的模型?线性,逻辑,泊松等模型?
TrynnaDoStat

1
这是一个线性模型,但我认为这个问题
无济于事

Answers:


7

λ

λ)。作为统计学家,您必须确定什么是“最佳”估计,并将其报告(最好是在一定程度上表明估计的可信度),然后将其报告给那些不熟悉统计的人。“最佳”可能是也可能不是偏差估计。

glmnetλλ

λ


在“最小化偏差的参数估计”中,“偏差”是什么意思?如果这样阅读,我是否可以正确阅读其余内容:我应该选择估计样本MSE最低的模型(即,交叉验证)?由于ridge毫无疑问,因为我想要一个稀疏的系数矩阵,因此报告缩小的套索系数是必经之路
mbokulic 2015年

λ

有趣的是,我从未想到过这种方式。再次,我必须问我是否正确理解了你。因此,线性回归为您提供了总体系数的最无偏估计(我原始问题中的“高2.5点”示例)。而套索或山脊礼。最小化样本外MSE。如果是这样,如果您只是想了解(而不是预测),则线性回归似乎更好,尽管您仍希望使用逐步方法来简化模型。
mbokulic,2015年

这里的答案很有帮助。他们认为OLS(线性回归)具有出色的样本内性能,而套索则适用于样本外。而且,他们建议可以将OLS应用于套索挑选出的受限预测变量集。即使OLS估计会略微过拟合,这对我的解释目标也确实有意义。
mbokulic,2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.