詹姆斯-斯坦因估计:如何做埃夫隆和莫里斯计算


18

1977年《科学美国人》的布拉德利·埃夫隆(Bradley Efron)和卡尔·莫里斯(Carl Morris)发表的“统计中的斯坦因悖论”一文中,我对计算詹姆斯-斯坦因收缩因子有疑问。

我收集了棒球选手的数据,数据如下:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45是蝙蝠点后的平均值,在本文中用表示。是本季末的平均值。45yavgSeason

对于一般的(詹姆斯斯坦估计)由下式给出 Z ^ = ˉ Ÿ + Ç Ÿ - ˉ Ÿ 和收缩系数Ç由(美国科学1977年第5页)给出 Ç = 1 - ķ - 3 σ 2z

z=y¯+c(yy¯)
c
c=1(k3)σ2(yy¯)2,

其中是未知均值的数量。这里有18位玩家,所以k = 18。我可以计算Σ Ý - ˉ ÿ2使用的值。但我不知道如何计算σ 2。作者说,对于给定的数据集,c = 0.212kk=18(yy¯)2avg45σ2c=0.212

我试着用两个σ 2 ÿσ 2,但他们没有给出正确答案C ^ = 0.212σx2σy2σ2c=0.212

任何人都可以是一种足以让我知道如何计算的这组数据?σ2


1
我知道MAD(en.wikipedia.org/wiki/Median_absolute_deviation)用于小波收缩。
罗宾吉拉德

Answers:


19

参数是矢量分量,其中的每一个,我们假定是正态分布的(未知)共同方差。对于棒球数据,我们有45 ÿ b Ñ ø 45 p ,所以正常逼近二项式分布给出(取^ p = ÿ σ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

显然,在这种情况下,方差不相等,但如果他们已经等于一个共同的值,那么我们就可以用合并估计估计它 σ 2 = p1 - p 其中 p是总平均值 p =1

σ^2=p^(1p^)45,
p^ 看来这就是埃夫隆(Efron)和莫里斯(Morris)所做的(在1977年的论文中)。
p^=11845i=11845Yi=Y¯.

您可以使用以下R代码进行检查。数据如下:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

这里是估计σ2

s2 <- mean(y)*(1 - mean(y))/45

这是σ 20.004332392。然后,纸张中的收缩系数为σ^20.004332392

1 - 15*s2/(17*var(y))

c0.2123905k2k3


很好的解释,我喜欢二项式的正态近似。
张伯伦丰沙2015年

14

我不太确定 C=0.212,但是下面的文章提供了对这些数据的更详细的描述:

埃夫隆(Efron,B.)和莫里斯(Morris,C.)(1975)。使用Stein估计器及其推广进行数据分析。美国统计协会杂志,70(350),311-319 (链接到pdf)

或更详细

埃夫隆(Efron,B.)和莫里斯(Morris,C.)(1974)。使用Stein估计器及其推广进行数据分析。R-1394-OEO,兰德公司,1974年3月(链接到pdf)

在第312页,您将看到Efron&Morris使用这些数据的反正弦变换,因此击球平均值的方差大约为1:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

然后他们使用c = .209来计算 ž 值,我们可以轻松地对其进行逆变换:

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

因此,这就是Stein估计器的值。对于克莱门特,我们得到.290,与1977年文章中的.294非常接近。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.