收缩方法能解决什么问题?


61

假期的来临使我有机会借助“统计学习的要素”在火炉旁next 。从计量经济学的角度来看,我在掌握收缩方法(如岭回归,套索和最小角度回归(LAR))的使用方面遇到了麻烦。通常,我对参数估计值本身以及实现无偏见或至少一致感兴趣。收缩方法不能做到这一点。

在我看来,当统计人员担心回归函数对预测变量过于敏感时,会使用这些方法,因为它认为预测变量比实际更为重要(通过系数的大小来衡量)。换句话说,过度拟合。

但是,OLS通常会提供无偏且一致的估计。(脚注)我一直认为过拟合的问题不是给出太大的估计,而是给出过小的置信区间,因为未考虑选择过程( ESL提到了后者。

无偏/一致的系数估计会导致对结果的无偏/一致的预测。收缩方法使预测比OLS更接近平均结果,似乎在桌上留下了信息。

重申一下,我没有看到收缩方法试图解决什么问题。我想念什么吗?

脚注:我们需要完整的列级条件来识别系数。误差的外生性/零条件均值假设和线性条件期望假设决定了我们可以对系数进行的解释,但是即使这些假设不成立,我们也可以得到无偏或一致的估计值。


1
这里有几个相关的问题。这是一个:stats.stackexchange.com/questions/10478/…–
主教

2
注意,在选择收缩参数以获得参数一致性方面存在简单且相当弱的条件。在著名的Knight&Fu(2000)论文中对此进行了详细介绍,并涵盖了远远超出岭回归和套索的案例。在最近几年中,模型选择的一致性也已成为热门话题。
主教

@cardinal,感谢为套索建模一致性结果的指针;我来看一下 当然,OLS也可以找到这些结果。结果表明这两个过程都到达同一位置。所以我仍然不明白为什么我们要在OLS上使用套索。
查理

1
模型一致性是与参数估计的渐近一致性不同的概念。您是否知道(熟悉)这种差异?
主教

@cardinal,通过模型一致性,我想您的意思是包括正确的预测变量。我们可以通过在使用OLS的选择过程中使用AIC标准来获得此信息。我猜想您是在暗示,套索会选择系数“错误”的正确模型?
查理

Answers:


47

我怀疑您想要一个更深层的答案,而我不得不让别人提供,但是我可以从松散的概念性角度给您一些关于岭回归的想法。

OLS回归会产生无偏的参数估计值(即,如果收集了此类样本并且不确定地估计了参数,则参数估计值的采样分布将以真实值为中心)。此外,采样分布将在所有可能的无偏估计中具有最低的方差(这意味着,与其他一些无偏估计过程的估计相比,OLS参数估计平均而言将更接近真实值)。这是个老新闻(对不起,我知道您知道得很清楚),但是,方差较小的事实并不意味着其非常低。。在某些情况下,采样分布的方差可能太大,以至于OLS估算器实际上一文不值。(可能发生这种情况的一种情况是高度的多重共线性。)

在这种情况下该怎么办?好吧,可以发现具有较低方差的另一种估计量(尽管很明显,鉴于上述规定,它必须是有偏差的)。也就是说,我们要权衡无偏以降低方差。例如,我们得到的参数估计值可能实际上更接近真实值,尽管可能略低于真实值。这种权衡是否值得,是分析师在面对这种情况时必须做出的判断。无论如何,岭回归就是这样一种技术。下图(完全制造)旨在说明这些想法。

在此处输入图片说明

提供了关于岭回归的简短,简单的概念性介绍。我对套索和LAR的了解较少,但我相信可以应用相同的想法。有关套索和最小角度回归的更多信息,请参见此处,“简单说明...”链接特别有用。 提供了有关收缩方法的更多信息。

我希望这是有价值的。


12
这给出了一些不错的概念提示。在第二段中,重点放在无偏见上,但是缺少重要的警告。除非(a)线性模型是“正确的”(以及什么时候是?),以及(b)所有相关的预测变量都包含在模型中,否则系数估计通常仍会存在偏差。
主教

5
我对偏差/方差折衷的有限理解是,即使方差较大,寻找解释的人(也许是原始海报)也倾向于无偏差,但即使偏差,做出预测的人也可能更喜欢方差小的东西。介绍。
韦恩

2
@韦恩:确实,这是问题的症结之一。ESL中的许多观点都来自预测观点,因此这为他们的分析提供了很大一部分。对单个系数进行推论,尤其是在观察环境中,是一件很麻烦的事情。断言系数估计确实是“无偏的”需要一些令人信服的说服力。
主教

1
给我一些时间,稍后我可能会尝试对我已经过多的评论进行扩展。
主教

@gung,这里是一个相关的元线程,你可能会感兴趣。
理查德·哈代

16

估计器的误差是(平方)偏差和方差分量的组合。但是在实践中,我们希望将模型拟合到特定的有限数据样本,并且希望将对我们实际拥有的特定数据样本评估的估计量的总误差减到最小,而不是在某些样本总体上平均零误差(我们没有)。因此,我们希望同时减少偏差和方差,以最大程度地减少误差,这通常意味着牺牲无偏性以更大程度地减少方差分量。在处理方差可能很大的小型数据集时尤其如此。

我认为关注点的不同取决于对程序的属性是否感兴趣,还是对特定样本获得最佳结果。常见的人通常会发现前者在该框架内更容易处理;贝叶斯算法通常更关注后者。


9

我猜可能有一些答案可能适用:

  • 当预测变量的矩阵不是完整的列等级时,岭回归可以提供识别。
  • 当预测变量的数目大于观测数目(非奇异问题的另一个变体)时,可以使用套索和LAR。
  • 套索和LAR是自动变量选择算法。

我不确定关于岭回归的第一点确实是一项功能;我认为我宁愿更改模型以处理非身份验证。即使没有建模更改,在这种情况下,OLS也会提供结果的唯一(且无偏见/一致)的预测。

我可以看到第二点可能会有所帮助,但是在参数数量超过观察值数量的同时产生无偏/一致估计的情况下,前向选择也可以起作用。

最后一点,例如,前进/后退选择很容易实现自动化。

所以我仍然看不到真正的优势。


6
一些说明:(1)当预测变量矩阵不是完整秩时,OLS估计不是唯一的。(2)一致性是一个渐近概念,因此需要一系列估计。这意味着您需要定义要考虑的序列类型,而您感兴趣的增长类型确实很重要。(3)一致性有多种类型,理解它们之间的差异是可以说明的。在赵禹和(2006)纸有一个很好的讨论。(4)无偏高估了。
主教

1
5Hoerl&Kennard(1970)中岭回归的最初动机是处理病态设计矩阵,这是秩次“软”形式。
红衣主教

1
@红衣主教 (1):对不起,我的意思是结果的预测,而不是系数的估计。
查理

1
喔好吧。与您在问题中的脚注更加吻合。
主教

如上面的评论所示,是Zhao&Yu(2006)公开版本的链接。
理查德·哈迪

4

这是Biostatistics提供的基本应用示例

假设我正在研究卵巢癌的存在与一组基因之间的可能关系。

我的因变量是二进制(编码为零或1)。我的自变量编码蛋白质组数据库中的数据。

正如许多遗传学研究中常见的那样,我的数据要比数据高得多。我有216种不同的观察结果,但有4000种左右的预测变量。

线性回归是正确的(系统过于恐怖,无法确定)。

特征选择技术确实不可行。具有4,000多个不同的自变量,所有可能的子集技术都完全不可能,甚至连连的特征选择也令人怀疑。

最好的选择可能是使用带弹性网的逻辑回归。

我想进行特征选择(确定哪些自变量很重要),所以岭回归确实不合适。

完全有可能存在超过216个具有显着影响的自变量,因此我可能不应该使用套索(套索无法识别比您所观察到的更多的预测变量)...

输入弹性网...


1
您能提供处理您提到的这种情况的教科书吗?
2015年

0

线性回归收缩方法可以解决的另一个问题是,在对观察数据进行的高维病例对照研究中,获得的平均治疗效果(ATE)的方差较低(可能无偏)。

具体来说,在以下情况中:1)变量很多(难以选择变量进行精确匹配),2)倾向得分匹配无法消除处理样品和对照样品中的不平衡,3)存在多重共线性,有几种技术,例如获得渐近无偏估计的自适应套索(Zou,2006)。有几篇论文讨论了使用套索回归进行因果推断并在系数估计上生成置信区间(请参见以下文章:使用套索进行变量选择后的推断)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.