我使用受罚的R包来获取数据集的压缩系数估计,在该数据集中,我有很多预测变量,而对于哪些预测变量很重要则知之甚少。在选择了调整参数L1和L2并且对系数感到满意之后,是否有一种统计上合理的方法来汇总模型拟合度(如R平方)?
此外,我对测试模型的整体重要性感兴趣(即R²= 0还是全部= 0)。
我已仔细阅读了此处提出的类似问题的答案,但并没有完全回答我的问题。我在这里使用的R包有一个很好的教程,作者Jelle Goeman在教程的最后有关于注释式回归模型的置信区间的以下注释:
要求回归系数或其他估计量的标准误差是一个很自然的问题。原则上,这种标准误差可以很容易地计算出来,例如使用引导程序。
尽管如此,该程序包还是故意不提供它们。这样做的原因是,标准误差对于严重偏差的估算(例如由惩罚估算方法产生的估算)不是很有意义。惩罚估计是一种通过引入实质性偏差来减少估计量方差的过程。因此,每个估计量的偏差都是其均方误差的主要组成部分,而其方差可能只占很小的一部分。
不幸的是,在惩罚回归的大多数应用中,不可能获得偏差的足够精确的估计。任何基于引导程序的计算都只能评估估计值的方差。仅当可获得可靠的无偏估计时,才可以使用偏差的可靠估计,而在使用罚分估计的情况下,情况通常并非如此。
因此,报告惩罚性估计的标准误差只能说明部分情况。它可能会给人以非常高的精度的错误印象,而完全忽略了由偏差引起的不准确性。做出仅基于估计方差评估的置信度声明,例如基于引导程序的置信区间,确实是一个错误。