为什么将James-Stein估计量称为“收缩”估计量?


19

我一直在阅读有关James-Stein估计器的信息。在本注释中,其定义为

θ^=(1p2X2)X

我已经阅读了证明,但不理解以下说法:

在几何上,James–Stein估计器将每个分量向原点方向收缩。X

“将每个分量缩小到原点”到底是什么意思?我在想类似 在这种情况下,只要,因为 X

θ^02<X02,
(p+2)<X2
θ^=X2(p+2)X2X.

人们说“缩小为零”是什么意思,因为从范式来看,JS估计量比X更接近零?L2X

截至2017年9月22日的更新:今天我意识到也许我使事情变得过于复杂。似乎人们真的是说,一旦将乘以小于,即,X的每个分量都将比以前小。1 X 2 - p + 2 X1 XX2(p+2)X2X

Answers:


31

图片有时值一千个字,所以让我与您分享一个。在下面可以看到一个插图,该插图来自Bradley Efron(1977)的论文Stein的统计悖论。如您所见,Stein的估算器所做的是将每个值都移到更接近于平均值。它使大于共同平均值的值较小,而小于共同平均值的值较大。收缩是指将值向平均值移动,或在某些情况下向零移动(例如正则回归),这会将参数向零收缩。

Efron的Stein估计量插图(1977)

当然,这不仅与收缩本身有关,而且斯坦(1956)以及詹姆斯和斯坦(1961)的证明是,斯坦因的估计量在总平方误差方面占最大似然估计值,

Eμ(μ^JSμ2)<Eμ(μ^MLEμ2)

其中,是Stein的估计量,,其中这两个估计量都是在样本上估计的。在原始论文和您引用的论文附录中提供了证明。用简单的英语来说,他们显示的是,如果您同时做出猜测,那么就总平方误差而言,与坚持最初的猜测相比,缩小它们会更好。μ=(μ1,μ2,,μp)μ^iJSμ^iMLE=xix1,x2,,xpp>2

最后,斯坦因的估计器当然不是给出收缩效果的唯一估计器。对于其他示例,您可以查看此博客条目,或查阅Gelman等人引用的贝叶斯数据分析书。您还可以检查有关正则回归的线程,例如,收缩方法可以解决什么问题?,或何时使用正则化方法进行回归?,用于此效果的其他实际应用。


这篇文章似乎很有帮助,我将阅读它。我已经更新了我的问题,以进一步解释我的想法。你可以看看吗?谢谢!
3x89g2

2
@Tim我认为Misakov的论点是合理的,因为James-Stein估计量使的估计量比MLE更接近零。零在此估计量中起着中心和中心的作用,可以构造James-Stein估计量,使其向其他中心甚至子空间收缩(如George,1986)。例如,埃夫隆(Efron)和莫里斯(Morris)(1973)缩小为共同的均值,即对角子空间。θ
西安
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.