从惩罚回归模型估计R平方和统计显着性


20

我使用受罚的R包来获取数据集的压缩系数估计,在该数据集中,我有很多预测变量,而对于哪些预测变量很重要则知之甚少。在选择了调整参数L1和L2并且对系数感到满意之后,是否有一种统计上合理的方法来汇总模型拟合度(如R平方)?

此外,我对测试模型的整体重要性感兴趣(即R²= 0还是全部= 0)。

我已仔细阅读了此处提出的类似问题的答案,但并没有完全回答我的问题。我在这里使用的R包有一个很好的教程,作者Jelle Goeman在教程的最后有关于注释式回归模型的置信区间的以下注释:

要求回归系数或其他估计量的标准误差是一个很自然的问题。原则上,这种标准误差可以很容易地计算出来,例如使用引导程序。

尽管如此,该程序包还是故意不提供它们。这样做的原因是,标准误差对于严重偏差的估算(例如由惩罚估算方法产生的估算)不是很有意义。惩罚估计是一种通过引入实质性偏差来减少估计量方差的过程。因此,每个估计量的偏差都是其均方误差的主要组成部分,而其方差可能只占很小的一部分。

不幸的是,在惩罚回归的大多数应用中,不可能获得偏差的足够精确的估计。任何基于引导程序的计算都只能评估估计值的方差。仅当可获得可靠的无偏估计时,才可以使用偏差的可靠估计,而在使用罚分估计的情况下,情况通常并非如此。

因此,报告惩罚性估计的标准误差只能说明部分情况。它可能会给人以非常高的精度的错误印象,而完全忽略了由偏差引起的不准确性。做出仅基于估计方差评估的置信度声明,例如基于引导程序的置信区间,确实是一个错误。


1
当然,我可以快速获得R平方的一种方法是拟合线性模型,从原始数据中预测拟合值,然后从中取R平方。但这似乎是R平方的过度拟合和偏倚估计。
斯蒂芬·特纳

我将其添加为评论,因为我在附近的帖子中问一个“类似”问题(因此我不知道我是否有资格给出答案),但是对于您的问题,具体来说,您似乎可以计算R平方而不需要任何分布假设(尽管以常规方式需要用于假设检验)。如果您没有足够的数据,您是否可以使用保留集来计算r平方或使用k折验证(在每折中运行完整的罚分流程,并从每个折中求出r平方的平均值,在配件中使用)?
B_Miner 2011年

1
@ B_Miner,倍交叉验证往往会给出估计偏差,因为它通常不是在估计真实的利息量。许多(大多数?)类似的过程都存在相同的问题。- [R 2kR2
主教

1
@ Stephen,真的是您感兴趣的数量吗?由于惩罚造成的偏差,因此除非您已经非常好地估计了偏差,否则仅查看解释的方差可能是不理想的。使用作为推论基础的整个想法是基于估计的无偏性。甚至有关回归的主要教科书似乎也“忘记”了这一点。(例如,在多元回归情况下,参见Seber和Lee对处理有些错误。)R 2 R 2R2 R2R2
主教,

1
我认为可以用通常的方式定义,有时会有所帮助。即使标准误差不能解释偏差,它们也是“保守,缩小为零”数量的标准误差。它们也许不能用于形式推论,但我想在得出结论之前永远不要使用它们之前听取更多讨论。R2
弗兰克·哈雷尔

Answers:


4

我对Jelle的评论的第一个反应是“偏见-偏见”。您必须注意“大量预测变量”的含义。就以下方面而言,这可能是“很大的”:

  1. 数据点数(“大p小n”)
  2. 您必须调查变量的时间
  3. 逆转巨型矩阵的计算成本

我的反应基于关于点1的“大”。这是因为在这种情况下,通常值得在偏差上进行权衡,以减少所得到的方差。偏差只是重要的“长期”。因此,如果您的样本量很小,那么谁在乎“长期运行”呢?

综上所述,可能不是一个特别好的计算量,特别是当您有很多变量时(因为几乎所有告诉您:您有很多变量)。我会使用交叉验证来计算类似“预测错误”的内容。RR2R2

理想情况下,此“预测错误”应基于您的建模情况的上下文。您基本上想回答以下问题:“我的模型再现数据的程度如何?”。您所处的环境应该能够告诉您在现实世界中“好”的意思。然后,您需要将其转换为某种数学方程式。

但是,我没有明显的背景可以解决这个问题。因此,“默认”类似于PRESS: 其中是在没有第i个数据点的情况下拟合的模型的的预测值(不影响模型参数)。总和中的术语也称为“删除残差”。如果这在计算上过于昂贵而无法进行模型拟合(尽管大多数程序通常会使用标准输出为您提供类似的信息),那么我建议对数据进行分组。因此,您可以设置等待Ý- ÿ ÿ Ñ Ť 中号

PRESS=i=1N(YiY^i,i)2
Y^i,iYiYiNT(最好不是0 ^ _ ^),然后将其除以拟合模型所需的时间。这将提供总计重新拟合,样本大小为。 的一种方法您可以了解每个变量对重新拟合普通回归(变量的顺序相同)有多重要。然后按比例检查每个估计量已缩小到零M Ng=G=TM PřË小号小号= g ^ Σ=1 ñ Σ=1ÿ - ÿ-2β大号小号Ng=N×MT
PRESS=g=1Gi=1Ng(YigY^ig,g)2
βLASSOβUNCONSTRAINED。拉索和其他受约束的回归可以看作是“平滑变量选择”,因为不是采用二进制的“由内而外”的方法,而是根据模型对模型的重要性,使每个估计值接近零。由错误衡量)。

3
上面您似乎要做的就是描述留一法交叉验证和倍交叉验证。由于高方差和通常较大的计算成本(某些回归设置除外),前几天很少使用前者。至于您对影响力的评论,如果,则没有唯一的最小二乘估计,这很复杂。同样,参数估计的符号也可以不同。我不是很肯定,但是即使存在OLS估计,对于某些参数,仍然可能存在比率的情况。p > n > 1kp>n>1
主教

1

R包hdm和Stata包lassopack支持对套索的联合重要性测试。该理论允许预测变量的数量相对于观察数量较大。hdm文档中简要说明了测试背后的理论以及如何应用它。简而言之,它基于理论驱动的惩罚框架(由Belloni,Chernozhukov和Hansen等人开发)。如果您想进一步了解基础理论,则本文是一个很好的起点。唯一的缺点是该测试仅适用于套索和(平方根套索)。不适用于其他惩罚性回归方法。

Belloni,A.,Chen,D.,Chernozhukov,V.和Hansen,C.(2012),稀疏模型和最优仪器的方法,并应用于显着域。Econometrica,80:2369-2429。


请添加论文的完整参考(链接可能会死亡)
Antoine
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.