为什么斯坦因悖论只适用于尺寸直觉


46

Stein的示例显示,如果均值且方差为则正态分布变量的最大似然估计是不允许的(在平方损失函数下)iff。有关精巧的证明,请参见Bradley Effron撰写的《大规模推理:估计,测试和预测经验贝叶斯方法》的第一章nμ1,,μn1n3

一开始这对我来说是非常令人惊讶的,但是背后有一些直觉,为什么人们可能会期望标准估计值是不可接受的(最明显的是,如果,那么,如Stein的原始论文所述(链接到下面)。xN(μ,1)Ex2μ2+n

我的问题是:缺少\ mathbb {R} ^ 2n维空间(对于n3)具有什么特性,这有助于Stein的示例?可能的答案可能是关于n球的曲率,或者是完全不同的东西。R2n

换句话说,为什么在\ mathbb {R} ^ 2中允许MLE R2


编辑1:响应@mpiktas对1.30之后的1.31的关注:

Eμ(zμ^2)=Eμ(S(N2S)2)=Eμ((N2)2S).

μi^=(1N2S)zi
所以
Eμ(μi^zi)=Eμ(1N2S+2zi2S2).
因此,我们有:

2i=1NEμ(μi^zi)=2N2Eμ(N(N2)S)+4Eμ((N2)S)=2NEμ2(N2)2S.

编辑2:在本文中,斯坦因证明了MLE对于N = 2是可接受的N=2


4
@mpiktas它不是看起来那么不适用。在应用充分性降低之后,情况类似于方差分析。这表明,如果我们试图估计3个以上组的均值,那么通常的ANOVA均值估计是不可接受的(这是事实)。我建议您查看MLE在可以接受的证据并查看尝试扩展到时它们失败的地方,而不是仅仅查看Stein估计器是否做到了其声称的证据,这很容易您实际上是在考虑估算器。N=1,2N=3
家伙

2
...并且知道要使用斯坦因的引理。我想这实际上比6分钟前要直截了当。
家伙

2
我同意。您对此有什么好的参考(除了原始论文)。我发现斯坦因(Stein)的原始论文过度计算,并希望有人在过去的50年中会开发出另一种方法。
喀拉

2
我所教的证明是1983年的Brown和Hwang所使用的证明,我相信它使用的是Blyth从1950年代初期建议的方法。它相当笼统(比Stein的结果更笼统,因为它适用于指数族),而且我相信,它与Stein完全不同。但这并不简单。
家伙

2
@Har很好的问题!(+1)
suncoolsu 2011年

Answers:


43

对于维多元正态随机变量均值的MLE的可容许性,情况和之间的二分法无疑令人震惊。d<3d3d

概率统计中还有另一个非常著名的例子,其中与情况之间存在二分法。这是格子上简单随机游走的重复。即,维简单随机游走在1维或2维中是递归的,但是在维中是瞬态的。连续时间模拟(以布朗运动的形式)也成立。d<3d3Zddd3

事实证明,两者密切相关。

拉里·布朗(Larry Brown)证明这两个问题本质上是等效的。即,当且仅当维布朗运动是递归的时,维多元正态均值向量的最佳不变估计量是可接受的。μ^μ^(X)=Xdd

实际上,他的结果要远得多。对于任何具有受限(广义)风险的明智(即广义贝叶斯)估计量,存在一个明确的(!)对应维扩散,使得且仅当其对应的扩散为周期性时,才允许使用估计器。μ~μ~(X)L2dμ~

该扩散的局部平均值基本上与两个估计之间的差异,即和扩散的协方差是。由此可见,对于MLE,我们恢复了(重新定标的)布朗运动。μ~μ^2Iμ~=μ^=X

因此,从某种意义上讲,我们可以从随机过程的角度看待可容许性问题,并使用经过深入研究的扩散性质来得出所需的结论。

参考文献

  1. L.布朗(1971)。可接受的估计量,递归扩散和不溶边值问题安 数学。统计 ,卷 42号 3,第855–903页。
  2. RN Bhattacharya(1978)。多维扩散的复发准则和不变测度的存在性安 概率。,卷 6号 4,541–553。

2
实际上,我希望这样。与另一数学领域(微分几何或随机过程)的联系表明,的可容许性不只是a幸。好答案!n=2
喀拉

受您的回答启发,我提供了一些详细信息,并针对MO上的此问题添加了几何解释:mathoverflow.net/questions/93745/…–
Henry.L

21

@cardinal给出了一个很好的答案(+1),但是整个问题仍然是个谜,除非有人熟悉证明(我不是)。因此,我认为关于斯坦因悖论未出现在和的直观原因仍然是问题。RR2

我发现斯蒂芬·斯蒂格勒(Stephen Stigler)在1990年的《收缩估计量的高尔顿视角》中提供了一种回归视角。考虑独立的度量,每个度量都测量一些基础的(未观察到的)并从采样。如果我们以某种方式知道,则可以绘制对的散点图:XiθiN(θi,1)θi(Xi,θi)

斯坦因悖论:回归视角

对角线对应零噪声和完美估计;实际上,噪声不是零,因此点在水平方向上偏离了对角线。Correspondinly,可以被看作是一个回归直线上。但是,我们知道并想估计,因此我们应该考虑上的回归线- 如图所示(水平线),该回归线的斜率会有所不同,水平偏斜θ=Xθ=XXθXθθX

引用斯蒂格勒的论文:

高尔顿的斯坦因悖论观点使它几乎是透明的。的“普通”估计从理论回归线衍生上。如果我们的目标是预测该行会很有用从,但我们的问题是相反的,即预测从使用误差平方的总和作为一个标准。对于标准,线性估计最优通过的最小二乘回归直线给出上θ^i0=XiXθXθθX(θiθ^i)2θX,而James-Stein和Efron-Morris估计量本身就是最佳线性估计量的估计量。“常规”估计量是从错误的回归线得出的,James-Stein和Efron-Morris估计量是从对正确回归线的近似值得出的。

现在到了关键的一刻(重点已添加):

我们甚至可以看到为什么是必要的:如果或,的最小二乘线上必须穿过点,并且因此对于或,所述(两个回归线上和上)必须在每个同意。k3k=12θX(Xi,θi)k=12XθθXXi

我认为这很清楚和什么特别之处。k=1k=2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.