即使模型不正确,MLE估计也渐近正常且有效吗?


13

前提:这可能是一个愚蠢的问题。我只知道有关MLE渐近性质的陈述,但我从未研究过证明。如果我这样做了,也许我不会问这些问题,或者我可能会意识到这些问题没有道理...所以请对我轻松一点:)

我经常看到这样的说法:模型参数的MLE估计量渐近是正常且有效的。该声明通常写为

ñθ^dN(θ0,I(θ0)1)N

其中是样本数,是Fisher信息,是参数(向量)true值。现在,由于引用了真实模型,这是否意味着如果模型不真实,结果将不成立吗?θ 0NIθ0

示例:假设我将风力涡轮机功率输出建模 为风速与加性高斯噪声的函数VPV

P=β0+β1V+β2V2+ϵ

我知道这个模式是错误的,至少有两个方面的原因:1)是真的成正比的第三电源和2)错误不是添加剂,因为我忽略未与风速不相关的其他预测(我也知道该应该是0,因为在0风速不发电,但在这里这是不相关)。现在,假设我有一个来自风力涡轮机的功率和风速数据的无限数据库。我可以画任意数量的任意大小的样本。假设我绘制了1000个样本,每个样本的大小为100,并计算\ hat {\ boldsymbol {\ beta}} _ {100}\ boldsymbol {\ beta} =(\ beta_0,\ beta_1,\ beta_2)的MLE估计V β 0PVβ0β^100β=(β0,β1,β2)(在我的模型下,这只是OLS的估算值)。因此,我从\ hat {\ boldsymbol {\ beta}} _ {100}的分布中获得了1000个样本β^100。我可以用N = 500,1000,1500,\ dots重复练习N=500,1000,1500,。由于N\ hat {\ boldsymbol {\ beta}} _ {N}的分布是否应β^N趋于渐近正态分布,且具有均值和方差?还是模型不正确的事实会使该结果无效?

我问的原因是,很少(如果有的话)模型在应用程序中是“真实的”。如果在模型不正确时失去MLE的渐近特性,则可能有必要使用不同的估计原理,虽然在模型正确的情况下其功能不那么强大,但在其他情况下可能会比MLE更好。

编辑:在评论中指出,真实模型的概念可能有问题。我想到了以下定义:给定一个模型族由参数矢量,对于该族中的每个模型,您始终可以编写 fθ(x)θ

Y=fθ(X)+ϵ

只需将定义为。但是,通常该误差不会与正交,平均值为0,并且不一定会在模型推导中具有假定的分布。如果存在一个,使得具有这两个属性以及假定的分布,我会说该模型是正确的。我认为这与说直接相关,因为分解中的误差项ϵYfθ(X)Xθ0ϵfθ0(X)=E[Y|X]

Y=E[Y|X]+ϵ

具有上述两个属性。


3
即使模型不正确,MLE估计也通常是渐近正常的,例如,对于“最少错误”参数值,它可能是一致的。但是在这种情况下,将很难表现出效率或其他最优性。
kjetil b halvorsen

1
在提高效率之前,我们应该考虑一致性。在真理不在您的搜索空间中的情况下,我们需要不同的一致性定义,例如:d(P *,P),其中d是差异P *是关于d的最接近模型,而P是真理。例如,当d是KL散度(MLE最小化)时,除非模型是凸的,否则贝叶斯过程将是不一致的(无法到达最接近的模型)。因此,我认为MLE也将不一致。因此效率变得不明确。homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf
Cagdas Ozgenc

1
@Cagdas Ozgenc:在许多情况下(例如逻辑回归),“最小错误”参数的MLE仍然是一致的。对于非凸情况下的不一致问题,您有参考吗?会很感兴趣吗?(逻辑回归的似然函数是凸函数)
kjetil b halvorsen

@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf这让我头疼不已,但这是我的理解。如果我的理解是错误的,请纠正我。我毕竟只是一个业余爱好者。
Cagdas Ozgenc

4
我认为,当我们使用诸如“模型为真”或“最少为假”之类的术语时,就会遇到麻烦。在实践中处理模型时,它们都是近似的。如果我们做出某些假设,则可以使用数学来显示统计属性。概率数学和实际数据分析之间始终存在冲突。
Michael R. Chernick

Answers:


4

我不相信这个问题有一个答案。

当我们在应用最大似然估计时考虑可能的分布错误指定时,我们得到所谓的“拟最大似然”估计器(QMLE)。在某些情况下,QMLE既一致又渐近正常。

它肯定失去的是渐近效率。这是因为在所有情况下(这是具有渐近分布的数量,而不仅仅是)的渐近方差,n(θ^θ)θ^

(1)Avar[n(θ^θ)]=plim([H^]1[S^S^T][H^]1)

其中是对数似然的Hessian矩阵,是梯度,并且帽子表示样本估计值。HS

现在,如果我们有正确的规范,我们首先得到

(2)Avar[n(θ^θ)]=(E[H0])1E[S0S0T](E[H0])1

其中“ ”下标表示对真实参数的评估(并注意中间项是Fisher信息的定义),其次,“ 信息矩阵相等 ”成立并指出,这意味着渐近方差最终将是0E[H0]=E[S0S0T]

(3)Avar[n(θ^θ)]=(E[H0])1

这是Fisher信息的反函数。

但是,如果我们存在错误指定,则表达式不会导致表达式(因为阶和二阶导数是基于错误的似然得出的)。这反过来意味着信息矩阵不等式不成立,我们没有在表达式,并且(Q)MLE没有达到完全渐近效率。(1)(2)(1)(3)


Avar是随机变量的渐近方差,而表示概率收敛,对吗?您的答案似乎很有趣,但是我不明白您所指的是什么。我指的是根本不存在正确值的情况:请参阅我的风力发电机示例,无论,都没有值使模型正确,因为没有项,并且缺少与相关的其他预测变量。在这种情况下是什么意思?plimθθβ=(β0,β1,β2)β3Vθ
DeltaIV

抱歉,我的评论的第一版令人难以理解:现在我的观点应该很清楚。换句话说,如果没有“ true”,我们应该在表达式 theta-中将其解释为吗?θθn(θ^θ)
DeltaIV

1
@DeltaIV零。QMLE会“抓住”这一点吗?这取决于是否保持一致-同样,这个问题没有一个答案
Alecos Papadopoulos

1
我明白了 因此,QMLE(如果一致的话)应该收敛到:我会认为它会收敛到某个“最不正确”的参数值,如@kjetilbhalvorsen所建议。您能提供有关QMLE和编写的方程式的任何参考吗?谢谢θ=0
DeltaIV

1
@DeltaIV我建议在Hayashi ch博览会。关于极值估计器,关于MLE一致性,正态性等,参见图7。关于QMLE,主题相当广泛。例如,在“ QMLE”下,我们确实确实存在着这样的情况,即我们从一开始就承认所估计的参数可能与任何“真实参数”没有明确的联系(但此练习仍可作为近似值使用)。因此,请按照建议获取“最少错误”的向量。
Alecos Papadopoulos
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.