在小样本中矩方法可以击败最大似然性的示例?


57

最大似然估计器(MLE)渐近有效。我们看到实际的结果是,即使在小样本量下,它们通常也比矩量法(MoM)估计(当它们不同时)要好

在这里,“优于”是指在两者均无偏的情况下通常具有较小的方差,并且更一般地,通常具有较小的均方误差(MSE)。

问题出现了,但是:

在小样本中,MoM是否能击败MLE(例如MSE)

(在这种情况下,不是奇数/简并的情况-即考虑到ML存在的条件/渐近有效保持)

接下来的问题将是“小可以多大?” -也就是说,如果有示例,是否仍然有一些示例在相对较大的样本量(甚至所有有限的样本量)下仍然有效?

[我可以找到一个有偏估计器的示例,它可以在有限样本中击败ML,但它不是MoM。]


追溯性地添加注释:我在这里的重点主要是单变量情况(这实际上是我潜在的好奇心来自何处)。我不想排除多变量情况,但我也不想特别涉入James-Stein估计的扩展讨论。


没问题; 它发生在我们所有人身上,而且发生在我身上的次数比您多。我可能应该把它放在标题中,但是已经很长了。
Glen_b

@cardinal我现在已经把条件弄清楚了。
Glen_b

3
力矩方法可以通过其他方式“击败”最大可能性。例如,在正常混合估计问题中,MLE非常难计算,而MoM却很难计算。
vqv 2013年

@vqv当然,从某种意义上讲,MoM是更可取的。
Glen_b 2013年

2
由于我倾向于同情平民,因此我通知我,在iid制服的样本中,如果样本大小为,则的MoM估计值与贵族(MLE)的MSE相同。 ...但可惜的是,对于较大的样本量,这位贵族再次θ 1 2U(0,θ)θ12
宣布

Answers:


36

这可能被视为...作弊,但OLS估算器是MoM估算器。考虑一个标准的线性回归规范(具有随机回归器,因此量级取决于回归器矩阵)和大小为的样本。表示误差项方差的OLS估计值。这是无偏见的Ñ 小号2 σ 2Kns2σ2

MSE(s2)=Var(s2)=2σ4nK

现在考虑的MLE 。它是σ2

σ^ML2=nKns2
是否有偏见。其MSE为

MSE(σ^ML2)=Var(σ^ML2)+[E(σ^ML2)σ2]2
以OLS表示MLE,并使用该表达式表示OLS估计量方差

中号小号ë σ 2中号大号=2Ñ-ķ+ķ2

MSE(σ^ML2)=(nKn)22σ4nK+(Kn)2σ4
MSE(σ^ML2)=2(nK)+K2n2σ4

我们想要的条件(如果存在)

MSE(σ^ML2)>MSE(s2)2(nK)+K2n2>2nK

2 Ñ 2 - 4 Ñ ķ + 2 ķ 2 + Ñ ķ 2 - ķ 3 > 2 Ñ 2 - 4 Ñ + 2 ķ + Ñ ķ - ķ 2 > 0 ķ 2 -

2(nK)2+K2(nK)>2n2
2n24nK+2K2+nK2K3>2n2
简化我们得到 对于这个二次方是否可以得到负值?我们需要它的判别是积极的。我们有 这是另一个二次方,这次是。此判别式为 所以 考虑到是整数这一事实。如果ķ Δ ķ = Ñ + 2 2 - 16 Ñ = Ñ 2 + 4 Ñ + 4 - 16 ñ = ñ 2 - 12 Ñ + 4 Ñ Δ Ñ = 12 2 - 4 2 = 8 16 ñ 1ñ 2 =
4n+2K+nKK2>0K2(n+2)K+4n<0
K
ΔK=(n+2)216n=n2+4n+416n=n212n+4
n
Δn=12242=816
n1,n2=12±8162=6±42n1,n2={1,12}
nn在此间隔内,我们有 并且的平方始终取正值,因此我们无法获得所需的不等式。因此:我们需要的样本数量大于12。ΔK<0K

鉴于此,二次方的根是K

K1,K2=(n+2)±n212n+42=n2+1±(n2)2+13n

总体:对于样本大小和回归量的数目使得 我们有 对于例如,如果则发现要保持不等式,回归数必须为。有趣的是,对于少量回归变量,MLE在MSE方面更好。n>12KK1<K<K2

MSE(σ^ML2)>MSE(s2)
n=505<K<47

附录
二次方程的根方程可以写成K

K1,K2=(n2+1)±(n2+1)24n
通过快速浏览,我认为这意味着较低的根将始终为(考虑到“整数值”限制)-因此,对于任何(有限)样本量,当回归变量最多为时,MLE将具有MSE效率。55

1
好吧,规范附带的理论力矩条件是。在某种程度上说,我们使用的样本类似物作为的估计量。E(uuX)=σ2E(uuX)σ2
Alecos Papadopoulos

1
@AlecosPapadopoulos我认为“样本类似物” 的分母为,即与MLE相同。如果您用经验性期望代替理论性期望,那么分母将如何以结束呢?自然矩条件应为和并用经验期望代替,您将获得的分母。nnKE[Xk(YXβ)]=0E[(YXβ)2]=σ2n
2014年

2
@guy这是一个正确的说法。对我而言,自由度校正一直是矩量法的一个概念性问题。后所有的“样品类似物”是不是严格的概念,并且它与的“样本是指”通过后者的渐近对应与期望值-丁在一个渐近框架的概念的联系,通过划分代替确实没有任何区别。对我来说,这仍然是一个未解决的问题。另一方面,最大似然估计是由似然方程具体确定的,它可能与MoM一致,也可能不一致。(CONTD)nKn
Alecos Papadopoulos 2014年

1
@guy(CONTD)。所以您要说的是,在这种情况下,误差方差的MoM估计器最大似然估计器,因此我得出的结果不是将MoM与ML进行比较,而是将ML与OLS进行比较(后者是一个类别)。是的,可以这样说。
Alecos Papadopoulos 2014年

1
是否有“ MoM”估算器之类的东西?是MoM估算器,对吗?如果采用随机选择的OLS残差,则。那是一个非常好的时刻条件,不是吗?它为提供了一个非常好的MoM ,不是吗?即,通常的OLS估计量。eE(e2)=nknσ2σ2s2
比尔

17

“在本文中,我们考虑了两参数逆高斯分布的新参数化。我们通过矩量法和最大似然法找到逆高斯分布参数的估计量。然后,我们比较了高斯分布的效率。根据这两种方法的偏倚和均方误差(MSE)估算值。为此,我们固定参数值,运行模拟并报告这两种方法获得的估算值的MSE和偏倚。结论是,当样本量为10时,矩量法趋于比为这两个参数(拉姆达和θ)的估计的最大似然法更有效的....” 读更多

如今,人们不能(或不应该)相信所发表的一切,但该论文的最后一页似乎很有希望。我希望这能解决您追溯添加的说明。


1
如果我正确理解了该文章中的表格,那么我相信您是正确的-在某些样本量下,矩量法(本文中的MME)似乎胜过了MLE,至少在估计。(但是,某些模拟结果似乎有点奇怪-例如,第49页最右边一列的进度。)-这对我来说是一个非常有趣的结果,因为反高斯的使用相对广泛。θ
2014年

好发现!即使结果不正确,也很高兴看到声明在某处明确说明。
Ben Ogorek 2014年

我链接到我的答案中的论文来自MSc论文,可在此处全文访问:digi.library.tu.ac.th/thesis/st/0415有关声明,请参见第5.2节。包括一名正式教授在内的六个人签署了这一结果。
2014年

14

根据Hosking和Wallis(1987)在“广义帕累托分布的参数和分位数估计”中进行的模拟,cdf给出了两参数广义帕累托分布的参数

G(y)={1(1+ξyβ)1ξξ01exp(yβ)ξ=0

或密度

g(y)={1β(1+ξyβ)11ξξ01βexp(yβ)ξ=0

如果通过MOM而不是ML来估计它们,则更为可靠。这适用于大小最大为500的样本。

β^=y¯y2¯2(y2¯(y¯)2)

ξ^=12(y¯)22(y2¯(y¯)2)

y2¯=1ni=1nyi2

该论文包含很多错别字(至少我的错字有)。上面给出的MOM估计器的结果由该线程中的 “ heropup”提供。


谢谢你 这是到目前为止我一直在寻找的最简单的例子之一。
Glen_b 2014年

13

我发现了一个:

对于非对称指数功率分布

f(x)=ασΓ(1α)κ1+κ2exp(κασα[(xθ)+]α1κασα[(xθ)]α),α,σ,κ>0, and x,θR

Delicado和Goria(2008)的仿真结果表明,对于较小样本量下的某些参数,矩量法的表现优于MLE。例如,在样本大小为10 的已知情况下,当估计,MoM的MSE小于ML。θσ

Delicado和Goria(2008),
用于不对称指数幂分布的最大似然,矩和L矩方法的小样本比较,《
期刊计算统计和数据分析》
第52卷第3期,1月,第1661-1673页

(另请参见http://www-eio.upc.es/~delicado/my-public-files/LmomAEP.pdf


13

当可能仅指定某些总体矩时,矩量法(MM)可以击败最大似然(ML)方法。如果分布不明确,则ML估计量将不一致。

假设有限的时刻和iid观测值,则MM可以提供具有良好渐近特性的良好估计量。

示例:令是的iid样本,其中是未知的概率密度函数。将第个矩定义为,并考虑到要估计矩。X1,,XnXff:RR+νk=Rxkf(x)dxkν4

令,然后假设,则中心极限定理保证 其中“ “表示“收敛于” 。而且,根据斯卢茨基定理,Xk¯=1ni=1nXikν8<

n(X4¯ν4)dN(0,ν8ν42),
d

n(X4¯ν4)X8¯X4¯2dN(0,1)
由于(概率收敛)。X8¯X4¯2Pν8ν42

也就是说,我们可以使用矩量法(对于大样本)为得出(近似)推论,我们只需要对感兴趣的总体矩做出一些假设即可。在此,如果不知道的形状,就无法定义最大似然估计量。 ˚Fν4f

模拟研究:

Patriota 等。(2009年)进行了一些仿真研究,以验证变量误差模型中假设检验的拒绝率。结果表明,对于小样本,MM方法在零假设下产生的错误率比ML方法更接近名义水平。

历史记录:

矩量法是K. Pearson在1894年提出的“对演化数学理论的贡献”。最大似然法是由RA Fisher在1922年“论理论统计的数学基础”上提出的。这两篇论文都发表在伦敦皇家学会的《哲学交易》 A系列上。

参考:

费舍尔,RA(1922)。《理论统计的数学基础》,伦敦皇家学会的《哲学交易》,系列A,222,309-368。

Patriota,AG,Bolfarine,H,de Castro,M(2009)。具有方程误差的异方差结构误差变量模型,统计方法6(4),408-423(pdf

皮尔森,K(1894)。对进化的数学理论的贡献,伦敦皇家学会的哲学交易,系列A,185,71-110。


1
您的答案听起来像是一个潜在的有趣的答案。您可以在此扩展一点吗?我不确定我是否明白。
Glen_b 2014年

@Glen_b,请确认我的最后加入是否对您有帮助。
2014年

感谢那; 我相信我明白你的意思。
Glen_b 2014年

好的,这是一般性评论,但我认为它可以回答您的问题。如果您提供有关数据行为的全部信息,则ML方法优于MM方法自然是很自然的。在论文[1]中,我们进行了一些模拟研究,以验证变量误差模型中假设检验的拒绝率。结果表明,对于小样本,MM方法在零假设下产生的错误率比ML方法更接近名义水平。[1] ime.usp.br/~patriota/STAMET-D-08-00113-revised-v2.pdf
Alexandre Patriota

这是矩量法(MoM)的非典型示例。MoM通常部署在参数估计问题中,其中存在定义明确的参数分布族。另一方面,您可以在此处定义非参数最大似然估计。经验分布函数,例如F-hat,是未知分布函数F的非参数最大似然估计。考虑第4矩为F的函数,第4矩的非参数MLE是F-hat的第4矩。这与示例第四时刻相同。
vqv 2014年

5

支持MOM的其他来源:

Hong,HP和W. Ye。2014。使用积雪深度记录分析加拿大的极端地面积雪量。自然危害73(2):355-371。

如果样本量很小,使用MML可能会给出不切实际的预测(Hosking等,1985; Martin和Stedinger,2000)。


Martins,ES和JR Stedinger。2000年。水文数据的广义最大似然广义极值分位数估计量。水资源研究36(3):737-744。

抽象:

三参数广义极值(GEV)分布已广泛用于描述年度洪水,降雨,风速,浪高,积雪深度和其他最大值。先前的研究表明,参数的小样本最大似然估计器(MLE)不稳定,因此建议使用L矩估计器。最近的研究表明,矩量分位数估计器的方法的均方根误差比L矩和MLE小-0.25 <κ<0.30。对小样本中MLE行为的检验表明,可以生成GEV形状参数κ的荒谬值。在广义最大似然(GML)分析中使用贝叶斯先验分布将κ值限制在统计/物理上合理的范围内可消除此问题。

在“引言和文献综述”部分中,他们引用了其他论文,这些论文得出的结论是,在某些情况下,MOM的表现优于MLE(再次建立极值模型),例如

Hosking等。[1985a]表明小样本MLE参数估计器非常不稳定,并推荐了与L矩估计器等效的概率加权矩(PWM)估计器[Hosking,1990]。[...]

Hosking等。[1985a]表明,在样本量从15到100的偏差和方差方面,GEV分布的概率加权矩(PM)或等效L矩(LM)估计要好于最大似然估计(MLE)。最近,Madsen等人。[1997a]表明,矩量法(MOM)的分位数估计器在估计10年样本量为50至50的100年事件时,其-0.25 <K <0.30时,RMSE(均方根ror)比LM和MLE小。 。仅当K> 0.3并且样本量适中(n> = 50)时,才优选MLE。

K(kappa)是GEV的形状参数。

出现在引号中的论文:

Hosking J,Wallis J,Wood E(1985)通过概率加权矩量法估计广义极值分布。技术计量27:251–261。

Madsen,H.,PF Rasmussen和D.Rosbjerg(1997)比较用于模拟极端水文事件的年度最大序列和部分持续时间序列方法的比较,1,现场建模,水资源。Res。,33(4),747-758。

Hosking,JRM,L-Moments:使用订单统计信息的线性组合进行分析和估计,JR统计。等等 B,52,105-124,1990。


此外,我具有与上述论文相同的经验,如果使用小而中等的样本量(<50-100,这是典型值)对极端事件进行建模,MLE可能会得出不切实际的结果,模拟表明MOM更加健壮并且具有较小的RMSE。


3

在回答这个问题的过程中: 估计二项式的参数 我偶然发现了这篇论文:

英格拉姆·奥尔金(Ingram Olkin),约翰·彼得考(John Petkau),詹姆斯五世(James V Zidek):二项分布的N个估计量的比较。Jasa 1981。

这给出了一个示例,其中至少在某些情况下,矩量法击败了最大可能性。问题是估计在二项式分布其中两个参数是未知的。例如,当您看不到所有动物时,它似乎试图估计动物的数量,并且发现概率也未知。Bin N p pNBin(N,p)p


这个示例非常有趣的一件事是,传达这种情况非常简单-许多人都熟悉二项式(至少在概念上,如果并非总是使用名称)。
Glen_b 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.