为什么收缩真正起作用,0有什么特别之处?


15

该网站上已经有一篇文章谈论同一问题: 收缩为什么起作用?

但是,即使答案很流行,我也不认为这个问题的实质能够真正解决。很明显,在估计中引入一些偏差会导致方差减少,并可能提高估计质量。然而:

1)为什么引入偏差造成的损害要比方差获得的损害少?

2)为什么它总是可以工作?例如,在岭回归的情况下:存在定理

3)0(原点)有什么有趣的地方?显然,我们可以缩小到我们喜欢的任何位置(例如Stein estimator),但是它能像原点一样工作吗?

4)为什么各种通用编码方案更喜欢原点周围的位数较少?在这些假设只是更可能?

期望参考已证明的定理或确定的结果进行回答。


@KarolisKoncevičius,感谢您修复链接!但是,请注意,您的语言编辑可能不会很有帮助,除了最后一个。其他的似乎添加了一些多余的文本,从而使帖子的可读性稍差。
理查德·哈迪

1
3)“起源有何有趣之处?” 您如何理解此声明?如果您有一个组因子(例如国家/地区)和个人因子(例如城市),那么收缩将把平均值放到国家/地区级别,然后只有具有足够数据的城市级偏差才具有系数)-即您的模型被推到了组级别(国家)平均值(通过将城市等级系数推为零)...同样适用于等级(和多个等级)中的更多等级
seanv507

Answers:


7

1)为什么引入偏差造成的损害要比方差获得的损害少?

不必,通常是这样。权衡是否值得取决于损失函数。但是,我们在现实生活中关心的事情通常与平方误差相似(例如,我们关心的是一个大的错误,而不是两个大小的一半的错误)。

作为一个反例-想象一下,对于大学录取,我们将人们的SAT分数缩小到其人口统计学的SAT平均水平(无论如何定义)。如果做得正确,这会减少人的(某种)能力估计值的方差和均方误差,同时引入偏差。恕我直言,大多数人都会认为这样的权衡是不可接受的。

2)为什么它总是可以工作?

3)0(原点)有什么有趣的地方?显然,我们可以缩小到我们喜欢的任何位置(例如Stein估计器),但是它能像原始算法一样有效吗?

我认为这是因为我们通常会缩小系数或影响估计值。有理由相信大多数影响并不大(例如,参见安德鲁·盖尔曼的观点)。一种表达方式是,凡事都会对凡事产生重大影响的世界就是一个暴力的,无法预测的世界。由于我们的世界是可以预测的,足以让我们长寿并建立半稳定的文明,因此,大多数影响并不大。

由于大多数效果都不大,因此错误地缩小几个真正大的效果是有用的,同时也可以正确缩小可忽略的效果的负载。

我相信这只是我们这个世界的财产,您可能会构建收缩不切实际的自洽世界(最有可能通过使均方误差成为不切实际的损失函数)。只是我们生活的世界并非偶然。

另一方面,在贝叶斯分析中将收缩视为先验分布时,在某些情况下,收缩至0在实践中会非常有害。

一个例子是高斯过程中的长度标度(其中0是有问题的),Stan手册中的建议是使用先验,使可忽略的权重接近零,即有效地将较小的值“缩小”为零。同样,推荐的负二项式分布先验有效地缩小为零。最后但并非最不重要的一点是,每当对正态分布进行精确的参数设置时(如INLA中一样),使用反伽马或缩小到零的其他先验分布很有用。

4)为什么各种通用编码方案更喜欢原点周围的位数较少?这些假设是否更有可能?

P一世P一世+1一世


1
1)的答案实际上很好!
大卫,

显然,安德鲁·盖尔曼(Andrew Gelman)考虑到了标准模型,在该模型中,我们将系数与输入相乘。不一定是这种情况。如果我们将系数逆向引入模型怎么办?然后0将炸毁东西。
Cagdas Ozgenc

1
@CowboyTrader是的,在现实世界中,有一些用例会出现0问题,我们会缩小(添加到答案中)。因此,我认为这稍微支持一点,即缩小为零只是一种启发式方法,这种启发式方法在实践中经常发生(实际上),但不是基本的数学真理。
马丁·莫德拉克(MartinModrák),

1
对不起,我最初的反应。您的答案变得越来越有意义。请注意,收缩率在其他损耗函数下起作用,而不仅在平方损耗下起作用。我要解决的真正问题是,为什么它总是可以正常工作?对于均值/位置参数,0似乎是个幻数。
Cagdas Ozgenc

σ

0

Ridge,套索和弹性网类似于先验集中于零的贝叶斯方法-例如,参见Hastie,Tibshirani和Wainwright的统计稀疏统计学习部分2.9 Lq Penalties and Bayes Estimates:“这些估计量也有贝叶斯视图。...这意味着套索估计是使用拉普拉斯先验的贝叶斯MAP(最大后验)估计。”

回答您的问题(what's so special about zero?)的一种方法是,我们估计的影响平均为零,并且它们往往很小(即我们的先验值以零为中心)。在贝叶斯意义上,将估计值缩小到零是最佳的,并且可以通过该透镜考虑套索,山脊和弹性网。


3
缩小到零没有什么特别的(除了方程式更简单,因为您只需将结果乘以特定因子即可)。您也可以缩小到任何其他位置。该点离真实值越远,收缩的性能越差(但是对于任何一点,都会存在一定量的收缩,这将使性能有所提高……至少对于高斯分布变量而言)。因此,当结果通常远离零时,缩小到零只会带来很小的改善。
Sextus Empiricus

1
@MartijnWeterings显然,在事实本身上放一个先验将是理想的(牛眼)。但是,为什么缩小到0仍会有所改善?那就是我所追求的。
Cagdas Ozgenc

@CowboyTrader缩小到任何值都可以改善。这就是为什么它也适用于0的原因。
Sextus Empiricus

@MartijnWeterings是的,但是学习理论的界限几乎总是基于起源。他们将球/多面体/等放在原点上。只是证明方便吗?MDL假设编码通过给出0的最短码长来编码整数?这是巧合吗?
Cagdas Ozgenc

1
因此,假设您在所有变量实际上都是模型的一部分(实际上并不常见)的情况下执行岭回归,那么它将无法很好地工作。也许这就是Adrian所说的“效果平均为零,并且趋向于很小”(我不知道确实如此的情况。但是在机器学习中,有很多情况我们提供了很多参数,并且可能不需要很多参数,那么大多数效果为零或很小。)
Sextus Empiricus,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.