即使模型不正确，MLE估计也渐近正常且有效吗？

前提：这可能是一个愚蠢的问题。我只知道有关MLE渐近性质的陈述，但我从未研究过证明。如果我这样做了，也许我不会问这些问题，或者我可能会意识到这些问题没有道理...所以请对我轻松一点:)

我经常看到这样的说法：模型参数的MLE估计量渐近是正常且有效的。该声明通常写为

$\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})$ 为 $N\to\infty$

其中是样本数，是Fisher信息，是参数（向量）true值。现在，由于引用了真实模型，这是否意味着如果模型不真实，结果将不成立吗？ $N$ $\mathbf{I}$ $\theta_0$

示例：假设我将风力涡轮机功率输出建模为风速与加性高斯噪声的函数 $P$ $V$

$P=\beta_0+\beta_1V+\beta_2V^2+\epsilon$

我知道这个模式是错误的，至少有两个方面的原因：1）是真的成正比的第三电源和2）错误不是添加剂，因为我忽略未与风速不相关的其他预测（我也知道该应该是0，因为在0风速不发电，但在这里这是不相关）。现在，假设我有一个来自风力涡轮机的功率和风速数据的无限数据库。我可以画任意数量的任意大小的样本。假设我绘制了1000个样本，每个样本的大小为100，并计算，的MLE估计 $P$ $V$ $\beta_0$ $\hat{\boldsymbol{\beta}}_{100}$ $\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$ （在我的模型下，这只是OLS的估算值）。因此，我从的分布中获得了1000个样本 $\hat{\boldsymbol{\beta}}_{100}$ 。我可以用重复练习 $N=500,1000,1500,\dots$ 。由于 $N\to\infty$ ，的分布是否应 $\hat{\boldsymbol{\beta}}_{N}$ 趋于渐近正态分布，且具有均值和方差？还是模型不正确的事实会使该结果无效？

我问的原因是，很少（如果有的话）模型在应用程序中是“真实的”。如果在模型不正确时失去MLE的渐近特性，则可能有必要使用不同的估计原理，虽然在模型正确的情况下其功能不那么强大，但在其他情况下可能会比MLE更好。

编辑：在评论中指出，真实模型的概念可能有问题。我想到了以下定义：给定一个模型族由参数矢量，对于该族中的每个模型，您始终可以编写 $f_{\boldsymbol{\theta}}(x)$ $\boldsymbol{\theta}$

$Y=f_{\boldsymbol{\theta}}(X)+\epsilon$

只需将定义为。但是，通常该误差不会与正交，平均值为0，并且不一定会在模型推导中具有假定的分布。如果存在一个，使得具有这两个属性以及假定的分布，我会说该模型是正确的。我认为这与说直接相关，因为分解中的误差项 $\epsilon$ $Y-f_{\boldsymbol{\theta}}(X)$ $X$ $\boldsymbol{\theta_0}$ $\epsilon$ $f_{\boldsymbol{\theta_0}}(X)=E[Y|X]$

$Y=E[Y|X]+\epsilon$

具有上述两个属性。

maximum-likelihood model asymptotics

— 三角洲IV
source

即使模型不正确，MLE估计也通常是渐近正常的，例如，对于“最少错误”参数值，它可能是一致的。但是在这种情况下，将很难表现出效率或其他最优性。

— kjetil b halvorsen

在提高效率之前，我们应该考虑一致性。在真理不在您的搜索空间中的情况下，我们需要不同的一致性定义，例如：d（P *，P），其中d是差异P *是关于d的最接近模型，而P是真理。例如，当d是KL散度（MLE最小化）时，除非模型是凸的，否则贝叶斯过程将是不一致的（无法到达最接近的模型）。因此，我认为MLE也将不一致。因此效率变得不明确。homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf

— Cagdas Ozgenc

@Cagdas Ozgenc：在许多情况下（例如逻辑回归），“最小错误”参数的MLE仍然是一致的。对于非凸情况下的不一致问题，您有参考吗？会很感兴趣吗？（逻辑回归的似然函数是凸函数）

— kjetil b halvorsen

@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf这让我头疼不已，但这是我的理解。如果我的理解是错误的，请纠正我。我毕竟只是一个业余爱好者。

— Cagdas Ozgenc

我认为，当我们使用诸如“模型为真”或“最少为假”之类的术语时，就会遇到麻烦。在实践中处理模型时，它们都是近似的。如果我们做出某些假设，则可以使用数学来显示统计属性。概率数学和实际数据分析之间始终存在冲突。

— Michael R. Chernick

我不相信这个问题有一个答案。

当我们在应用最大似然估计时考虑可能的分布错误指定时，我们得到所谓的“拟最大似然”估计器（QMLE）。在某些情况下，QMLE既一致又渐近正常。

它肯定失去的是渐近效率。这是因为在所有情况下（这是具有渐近分布的数量，而不仅仅是）的渐近方差， $\sqrt n (\hat \theta - \theta)$ $\hat \theta$

\begin{matrix} (1) & Avar [\sqrt{n} (\hat{θ} - θ)] = plim ([\hat{H}]^{- 1} [\hat{S} {\hat{S}}^{T}] [\hat{H}]^{- 1}) \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = \text{plim}\Big( [\hat H]^{-1}[\hat S \hat S^T][\hat H]^{-1}\Big) \tag{1}$

其中是对数似然的Hessian矩阵，是梯度，并且帽子表示样本估计值。 $H$ $S$

现在，如果我们有正确的规范，我们首先得到

\begin{matrix} (2) & Avar [\sqrt{n} (\hat{θ} - θ)] = (E [H_{0}])^{- 1} E [S_{0} S_{0}^{T}] (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = (\mathbb E[H_0])^{-1}\mathbb E[S_0S_0^T](\mathbb E[H_0])^{-1} \tag{2}$

其中“ ”下标表示对真实参数的评估（并注意中间项是Fisher信息的定义），其次，“ 信息矩阵相等 ”成立并指出，这意味着渐近方差最终将是 $0$ $-\mathbb E[H_0] = \mathbb E[S_0S_0^T]$

\begin{matrix} (3) & Avar [\sqrt{n} (\hat{θ} - θ)] = - (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = -(\mathbb E[H_0])^{-1} \tag{3}$

这是Fisher信息的反函数。

但是，如果我们存在错误指定，则表达式不会导致表达式（因为阶和二阶导数是基于错误的似然得出的）。这反过来意味着信息矩阵不等式不成立，我们没有在表达式，并且（Q）MLE没有达到完全渐近效率。 $(1)$ $(2)$ $(1)$ $(3)$

— 阿莱科斯·帕帕多普洛斯
source

Avar

$\text{Avar}$ 是随机变量的渐近方差，而表示概率收敛，对吗？您的答案似乎很有趣，但是我不明白您所指的是什么。我指的是根本不存在正确值的情况：请参阅我的风力发电机示例，无论，都没有值使模型正确，因为没有项，并且缺少与相关的其他预测变量。在这种情况下是什么意思？

plim

$\text{plim}$

θ

$\theta$

θ

$\theta$

β = (β_{0}, β_{1}, β_{2})

$\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$

β_{3}

$\beta_3$

V

$V$

θ

$\theta$

— DeltaIV

抱歉，我的评论的第一版令人难以理解：现在我的观点应该很清楚。换句话说，如果没有“ true”，我们应该在表达式 theta-中将其解释为吗？

θ

$\theta$

θ

$\theta$

\sqrt{n} (\hat{θ} - θ)

$\sqrt n (\hat \theta - \theta)$

— DeltaIV

@DeltaIV零。QMLE会“抓住”这一点吗？这取决于是否保持一致-同样，这个问题没有一个答案

— Alecos Papadopoulos

我明白了因此，QMLE（如果一致的话）应该收敛到：我会认为它会收敛到某个“最不正确”的参数值，如@kjetilbhalvorsen所建议。您能提供有关QMLE和编写的方程式的任何参考吗？谢谢

θ = 0

$\theta=0$

— DeltaIV

@DeltaIV我建议在Hayashi ch博览会。关于极值估计器，关于MLE一致性，正态性等，参见图7。关于QMLE，主题相当广泛。例如，在“ QMLE”下，我们确实确实存在着这样的情况，即我们从一开始就承认所估计的参数可能与任何“真实参数”没有明确的联系（但此练习仍可作为近似值使用）。因此，请按照建议获取“最少错误”的向量。

— Alecos Papadopoulos