从惩罚回归模型估计R平方和统计显着性

我使用受罚的R包来获取数据集的压缩系数估计，在该数据集中，我有很多预测变量，而对于哪些预测变量很重要则知之甚少。在选择了调整参数L1和L2并且对系数感到满意之后，是否有一种统计上合理的方法来汇总模型拟合度（如R平方）？

此外，我对测试模型的整体重要性感兴趣（即R²= 0还是全部= 0）。

我已仔细阅读了此处提出的类似问题的答案，但并没有完全回答我的问题。我在这里使用的R包有一个很好的教程，作者Jelle Goeman在教程的最后有关于注释式回归模型的置信区间的以下注释：

要求回归系数或其他估计量的标准误差是一个很自然的问题。原则上，这种标准误差可以很容易地计算出来，例如使用引导程序。

尽管如此，该程序包还是故意不提供它们。这样做的原因是，标准误差对于严重偏差的估算（例如由惩罚估算方法产生的估算）不是很有意义。惩罚估计是一种通过引入实质性偏差来减少估计量方差的过程。因此，每个估计量的偏差都是其均方误差的主要组成部分，而其方差可能只占很小的一部分。

不幸的是，在惩罚回归的大多数应用中，不可能获得偏差的足够精确的估计。任何基于引导程序的计算都只能评估估计值的方差。仅当可获得可靠的无偏估计时，才可以使用偏差的可靠估计，而在使用罚分估计的情况下，情况通常并非如此。

因此，报告惩罚性估计的标准误差只能说明部分情况。它可能会给人以非常高的精度的错误印象，而完全忽略了由偏差引起的不准确性。做出仅基于估计方差评估的置信度声明，例如基于引导程序的置信区间，确实是一个错误。

— 斯蒂芬·特纳
source

当然，我可以快速获得R平方的一种方法是拟合线性模型，从原始数据中预测拟合值，然后从中取R平方。但这似乎是R平方的过度拟合和偏倚估计。

— 斯蒂芬·特纳

我将其添加为评论，因为我在附近的帖子中问一个“类似”问题（因此我不知道我是否有资格给出答案），但是对于您的问题，具体来说，您似乎可以计算R平方而不需要任何分布假设（尽管以常规方式需要用于假设检验）。如果您没有足够的数据，您是否可以使用保留集来计算r平方或使用k折验证（在每折中运行完整的罚分流程，并从每个折中求出r平方的平均值，在配件中使用）？

— B_Miner 2011年

@ B_Miner，倍交叉验证往往会给出估计偏差，因为它通常不是在估计真实的利息量。许多（大多数？）类似的过程都存在相同的问题。

k

$k$

R^{2}

$R^2$

— 主教

@ Stephen，真的是您感兴趣的数量吗？由于惩罚造成的偏差，因此除非您已经非常好地估计了偏差，否则仅查看解释的方差可能是不理想的。使用作为推论基础的整个想法是基于估计的无偏性。甚至有关回归的主要教科书似乎也“忘记”了这一点。（例如，在多元回归情况下，参见Seber和Lee对处理有些错误。）

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

— 主教，

我认为可以用通常的方式定义，有时会有所帮助。即使标准误差不能解释偏差，它们也是“保守，缩小为零”数量的标准误差。它们也许不能用于形式推论，但我想在得出结论之前永远不要使用它们之前听取更多讨论。

R^{2}

$R^2$

— 弗兰克·哈雷尔

Answers:

我对Jelle的评论的第一个反应是“偏见-偏见”。您必须注意“大量预测变量”的含义。就以下方面而言，这可能是“很大的”：

数据点数（“大p小n”）
您必须调查变量的时间
逆转巨型矩阵的计算成本

我的反应基于关于点1的“大”。这是因为在这种情况下，通常值得在偏差上进行权衡，以减少所得到的方差。偏差只是重要的“长期”。因此，如果您的样本量很小，那么谁在乎“长期运行”呢？

综上所述，可能不是一个特别好的计算量，特别是当您有很多变量时（因为几乎所有告诉您：您有很多变量）。我会使用交叉验证来计算类似“预测错误”的内容。 $R^2$ $R^2$

理想情况下，此“预测错误”应基于您的建模情况的上下文。您基本上想回答以下问题：“我的模型再现数据的程度如何？”。您所处的环境应该能够告诉您在现实世界中“好”的意思。然后，您需要将其转换为某种数学方程式。

但是，我没有明显的背景可以解决这个问题。因此，“默认”类似于PRESS：其中是在没有第i个数据点的情况下拟合的模型的的预测值（不影响模型参数）。总和中的术语也称为“删除残差”。如果这在计算上过于昂贵而无法进行模型拟合（尽管大多数程序通常会使用标准输出为您提供类似的信息），那么我建议对数据进行分组。因此，您可以设置等待

P R E S S = \sum_{i = 1}^{N} (Y_{i} - {\hat{Y}}_{i, - i})^{2}

$PRESS=\sum_{i=1}^{N} (Y_{i}-\hat{Y}_{i,-i})^2$

{\hat{Y}}_{i, - i}

$\hat{Y}_{i,-i}$

Y_{i}

$Y_{i}$

Y_{i}

$Y_i$

N

$N$

T

$T$ （最好不是0 ^ _ ^），然后将其除以拟合模型所需的时间。这将提供总计重新拟合，样本大小为。的一种方法您可以了解每个变量对重新拟合普通回归（变量的顺序相同）有多重要。然后按比例检查每个估计量已缩小到零

M

$M$

G = \frac{T}{M}

$G=\frac{T}{M}$

N_{g} = \frac{N \times M}{T}

$N_{g}=\frac{N\times M}{T}$

P R E S S = \sum_{g = 1}^{G} \sum_{i = 1}^{N_{g}} (Y_{i g} - {\hat{Y}}_{i g, - g})^{2}

$PRESS=\sum_{g=1}^{G}\sum_{i=1}^{N_{g}} (Y_{ig}-\hat{Y}_{ig,-g})^2$

\frac{β_{L A S S O}}{β_{U N C O N S T R A I N E D}}

$\frac{\beta_{LASSO}}{\beta_{UNCONSTRAINED}}$ 。拉索和其他受约束的回归可以看作是“平滑变量选择”，因为不是采用二进制的“由内而外”的方法，而是根据模型对模型的重要性，使每个估计值接近零。由错误衡量）。

— 概率逻辑
source

上面您似乎要做的就是描述留一法交叉验证和倍交叉验证。由于高方差和通常较大的计算成本（某些回归设置除外），前几天很少使用前者。至于您对影响力的评论，如果，则没有唯一的最小二乘估计，这很复杂。同样，参数估计的符号也可以不同。我不是很肯定，但是即使存在OLS估计，对于某些参数，仍然可能存在比率的情况。

k

$k$

p > n

$p > n$

> 1

$> 1$

— 主教

R包hdm和Stata包lassopack支持对套索的联合重要性测试。该理论允许预测变量的数量相对于观察数量较大。hdm文档中简要说明了测试背后的理论以及如何应用它。简而言之，它基于理论驱动的惩罚框架（由Belloni，Chernozhukov和Hansen等人开发）。如果您想进一步了解基础理论，则本文是一个很好的起点。唯一的缺点是该测试仅适用于套索和（平方根套索）。不适用于其他惩罚性回归方法。

Belloni，A.，Chen，D.，Chernozhukov，V.和Hansen，C.（2012），稀疏模型和最优仪器的方法，并应用于显着域。Econometrica，80：2369-2429。

— aahr1
source

请添加论文的完整参考（链接可能会死亡）

— Antoine