错误规范下的统计推断


14

统计推断的经典处理方法基于这样的假设,即使用了正确指定的统计数据。也就是说,生成观测数据的分布是统计模型: 但是,在大多数情况下,我们不能假设这是真的。我想知道,如果我们放弃正确指定的假设,统计推断程序会发生什么。P(Y)yM

P(Y)M={Pθ(Y):θΘ}

我发现怀特1982年在误配下对ML估计进行了一些研究。有人认为最大似然估计量是的一致估计量 可使统计模型内所有分布和真实分布\ mathbb {P} ^ *中的KL散度最小。

Pθ1=argminPθMKL(P,Pθ)
P

置信度估计量会怎样?让我们概述置信度估计量。令 δ:ΩY2Θ为集合估计量,其中ΩY是样本空间,2Θ是在参数空间\ Theta上设置的功效Θ。我们想知道的是\ delta产生的集合δ包含真实分布P,即

P(P{Pθ:θδ(Y)}):=A.

但是,我们当然不知道真实的分布P。正确指定的假设告诉我们PM。但是,我们仍然不知道模型是哪种分布。但是,

infθΘPθ(θδ(Y)):=B
是概率A的下限A。公式B是置信度集合估计器的置信度水平的经典定义。

如果我们放弃正确指定的假设,那么不一定是的下界,是我们实际上感兴趣的术语。确实,如果我们假设模型指定不正确(在大多数现实情况下都是如此),则为0,因为统计模型不包含真实分布。A A P * MBAAPM

从另一个角度来看,当模型指定不正确时,人们可能会想到与什么相关。这是一个更具体的问题。如果模型指定不正确,是否仍然具有含义。如果没有,为什么我们还要打扰参数统计呢?BB

我猜怀特1982年在这些问题上有一些结果。不幸的是,由于缺乏数学背景,我无法理解那里写的很多东西。


1
我发现了这个问题+ stats.stackexchange.com/questions/149773/…。这非常相似。阅读这些书可能会回答这个问题。但是,我仍然认为已经这样做的人的总结会很有帮助。
朱利安·卡尔斯

2
可惜的是,这个问题没有引起更多的兴趣-朱利安(Julian)的链接有一些不错的资料,但是我很想听听对此事的更多想法。
Florian Hartig

1
通常,通常所做的是在假设统计模型正确的情况下,在零假设下计算检验统计量的分布。如果p-值足够低,则可以得出结论,这是由于偶然原因或null为假。但是,如果模型指定不正确,那么这也是可以从逻辑上得出的结论。其他所有推论也是如此:模型指定错误的事实提供了另一种结论。这是我基于阅读Spanos的作品而想到的。
托比,

本质上,所有模型都是错误的。它有助于定量发展错误规格。对于图像,错误指定就是套准错误。例如,对于足够数量的计数来计数误差(例如,由于放射性衰变引起的误差),该误差是泊松分布的。在这种情况下,时间序列的重合失调是图像平方根的y轴误差,而噪声以相同的单位表示。这里的例子。
卡尔,

Answers:


2

假设是观察到的数据,假定该数据是一系列iid随机变量的实现,该变量具有关于sigma有限度量定义的公共概率密度函数。密度称为数据生成过程(DGP)密度。y1,,ynY1,,Ynpeνpe

在研究者的概率模型 是由参数向量θ索引的概率密度函数的集合 。假设M中的每个密度是相对于共同的sigma有限度量ν定义的(例如,每个密度可以是具有相同样本空间S的概率质量函数)。M{p(y;θ):θΘ}θMνS

重要的是要保持实际生成数据的密度pe在概念上与数据的概率模型不同。在经典的统计方法中,对这些概念的仔细区分要么被忽略,要么没有做出,或者从一开始就假设正确地指定了概率模型。

甲正确指定模型M相对于pe是其中定义为模型peM ν -almost无处不在。当 相对于p e错误指定M,这对应于未正确指定概率模型的情况。pe

如果正确指定的概率模型,则存在一个θ在参数空间Θ,使得 pe(y)=p(y;θ) ν -almost无处不在。这样的参数向量被称为“真实参数向量”。如果概率模型指定不正确,则不存在真实的参数向量。

内White的模型假设错误框架的目标是找到参数估计θ Ñ最小化 Ñθ1 / Ñ Σ ñ = 1个日志p ÿ ; θ超过一些紧凑参数空间Θ。假设一个独特的严格全局极小,θ *,预期值的 ňΘ位于内部Θθ^n^n(θ)(1/n)i=1nlogp(yi;θ)Θθ^nΘΘ。在正确指定概率模型的幸运情况下,θ可解释为“真实参数值”。

另外,在概率模型正确指定的特殊情况下,则θ Ñ是大家熟悉的最大似然估计。如果我们不知道有绝对的知识概率模型正确指定,那么θ ñ被称为准最大似然估计和目标是估计θ *。如果我们很幸运并且正确地指定了概率模型,则准最大似然估计会在特殊情况下减少到熟悉的最大似然估计,并且 θ 成为真实的参数值。θ^nθ^nθθ

White(1982)框架内的一致性对应于θ收敛,而无需θ一定是真实的参数向量。在怀特的框架内,我们永远不会估计由δ产生的集合包括TRUE分布P *的事件的概率。取而代之的是,我们总是估计概率分布P **,这是由δ产生的集合包括密度p(y;θ)指定的分布的事件的概率 。

最后,关于模型错误指定的一些评论。很容易找到示例,其中错误指定的模型非常有用且非常可预测。例如,考虑具有高斯残差项的非线性(甚至线性)回归模型,该项的方差非常小,而环境中的实际残差不是高斯项。

在正确指定的模型无用且无法预测的情况下,也很容易找到示例。例如,考虑一个用于预测股票价格的随机游动模型,该模型预测明天的收盘价是今天的收盘价与一些具有极大方差的高斯噪声的加权和。

模型错误指定框架的目的不是为了确保模型的有效性,而是为了确保可靠性。也就是说,即使存在少量或大量的模型错误指定,也要确保正确估计与参数估计,置信区间,假设检验等相关的采样误差。拟最大似然估计值是通过协方差矩阵估计器以θ为中心渐近法线的,该协方差矩阵估计器取决于对数似然函数的一阶和二阶导数。在特殊情况下,如果您很幸运并且模型正确,那么所有公式都将简化为大家熟悉的经典统计框架,其目标是估计“真实”参数值。


3

首先,让我说这是一个非常有趣的问题。感谢Julian发布。正如我所看到的,您在这种分析中面临的基本问题是,对的任何子集的任何推断都是对模型M中的受限概率测度类别的推断,因此,当您开始询问推断真值的概率时模型,在该模型下,退化为一个琐碎的问题,即一开始是否存在错误指定。怀特通过使用适当的距离度量来查看模型与真实概率度量的接近程度来解决这一问题。这导致他的概率测度P θ 1,这是最接近的代理P *ΘMPθ1P。看着这个方法 P θ 1可以扩展到给与您有关的信心组有趣的问题数量。MPθ1

在开始之前,值得指出的是,值B在您的分析中在数学上定义明确(即,它们存在),并且它们仍然具有含义。它不一定是非常有用的意思。分析中的值A定义明确;推断的概率测度集合包括真实概率测度是真实概率。你是正确的P *中号意味着= 0,这意味着,这个量在设定错误的情况下微不足道。在怀特的带领下,看数量也许更有趣:ABAPMA=0

AA(Y)P(Pθ1{Pθ|θδ(Y)}).

在这里,我们已经取代内发生与模型最接近的代理中号,这样的数量不再呈现琐碎当P *中号。现在,我们要求推断出的概率测度集合包括模型中真实概率测度的最接近代理的真实概率。该模型的假设错误不再trivialises这个量,因为我们有P θ 1中号施工。PMPMPθ1M

白通过显示的MLE是的一致估计分析误设。这很有价值,因为它告诉您即使存在规格不正确的情况,您仍然可以正确估计模型中与真实概率测度最接近的代理。关于置信集的自然跟进问题是特定的推理方法δ是否对量A 施加任何下限,或者在n 的极限处有收敛结果Pθ1δAn。如果您可以建立一个(正)下界或一个(正)收敛结果,这将为您提供一些有价值的保证,即使存在规格错误的情况,您仍然可以以一定的概率水平正确估计最接近的代理。我建议您遵循怀特所做的那种分析来探讨这些问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.