当我的模型错误时,为什么我应该是贝叶斯?


68

编辑:我添加了一个简单的示例:的均值的推断。我还稍微澄清了为什么不匹配置信区间的可信区间是不好的。Xi

我是一位虔诚的贝叶斯主义者,正处于某种信仰危机之中。

我的问题如下。假设我要分析一些IID数据。我要做的是:Xi

  • 首先,提出一个条件模型:

    p(X|θ)
  • 然后,选择的先验值: θ

    p(θ)
  • 最后,应用贝叶斯法则,计算后验:(或者应该近似计算,如果它不能计算),并回答我对所有疑问p(θ|X1Xn)θ

这是一个明智的方法:如果数据的真实模型确实在我的条件的“内部”(它对应于某个值),那么我可以呼吁统计决策理论说我的方法是可以接受的(请参阅Robert's有关详细信息,请参见“贝叶斯选择”;在所有相关章节中,“所有统计信息”也有明确说明。Xiθ0

但是,众所周知,假设我的模型正确无比:为什么自然应该整洁地落入我所考虑的模型的框内?假设对于所有值,数据的实模型与不同,这要现实得多。通常将其称为“错误指定”模型。p X | θ θptrue(X)p(X|θθ

我的问题是,在这种更为现实的,错误指定的情况下,与贝叶斯计算(即计算后验分布)相比,对于简单地计算最大似然估计器(MLE),我没有任何好的论据:

θ^ML=argmaxθ[p(X1Xn|θ)]

实际上,根据Kleijn,vd Vaart(2012)的说法,在错误指定的情况下,后验分布为:

  • 收敛为到以为中心的狄拉克分布θ中号大号nθ^ML

  • 没有正确的方差(除非两个值恰好相同),以确保后验的可信区间匹配置信区间。(请注意,虽然置信区间显然是贝叶斯人不太在意的事情,但从质量上讲,这意味着后验分布本质上是错误的,因为这意味着其可信区间没有正确的覆盖范围)θ

因此,我们为没有额外的属性而付出了计算上的额外费用(一般来说,贝叶斯推断要比MLE昂贵)

因此,最后,我的问题是:在模型指定不正确的情况下,是否有关于理论上或经验上的论据,用于对简单的MLE替代方法使用贝叶斯推理?

(由于我知道我的问题通常不清楚,如果您不了解某些内容,请告诉我:我会尝试重新表述)

编辑:让我们考虑一个简单的示例:在高斯模型下推断的平均值(已知方差可以进一步简化)。我们考虑高斯先验:我们将表示为先验均值,表示的逆方差。令为的经验均值。最后,请注意:。 σ μ 0 β 0 ˉ X X μ = β 0 μ 0 + ÑXiσμ0β0X¯Xiμ=(β0μ0+nσ2X¯)/(β0+nσ2)

后验分布为:

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

在正确指定的情况下(当实际上具有高斯分布时),此后验具有以下良好的属性Xi

  • 如果是从分层模型中生成的,在该模型中从先验分布中选择了它们的均值,则后可信区间将具有准确的覆盖范围。以数据为条件,在任何间隔中的概率等于后验归因于该间隔的概率 θXiθ

  • 即使先验值不正确,可信区间也会在极限范围内具有正确的覆盖范围,其中先验对后验的影响将消失n

  • 后验进一步具有良好的频度性质:保证从后验构造的任何贝叶斯估计量都是可以接受的,后验均值是均值的有效估计量(在Cramer-Rao意义上),可信区间渐近是置信区间。

在错误指定的情况下,理论上不能保证大多数这些属性。为了修正想法,让我们假设的实际模型是学生分布。我们唯一可以保证的属性(Kleijn等人)是,后验分布集中在极限均值上。通常,所有coverage属性都将消失。更糟糕的是,总的来说,我们可以保证在该限制内,覆盖范围属性从根本上是错误的:后验分布将错误的概率归因于空间的各个区域。X i n XiXin


2
好吧,贝叶斯方法正则化。这是为了防止过度拟合-无论您的模型是否指定不正确。当然,这仅引发了有关正则化经典方法(套索,岭回归,弹性网等)的贝叶斯推理论证的相关问题。
Stephan Kolassa

3
您可能对这项工作及其亲属感兴趣。
Dougal

7
如果您使用不正确的似然函数对模型进行了错误指定,则MLE和贝叶斯估计都将是错误的……
蒂姆

5
@Tim:在错误指定的情况下,MLE和贝叶斯推理并非毫无意义:它们都试图恢复参数值,这可以最好地说明条件模型中的数据。更准确地说,是函数,其中KL是Kullback Leibler散度。在温和的假设下,如果有足够的数据量,则MLE和贝叶斯推理都可以正确地识别θ 0ķ大号[pXpX|θ]θ 0θ~0θ~0KL[p(X),p(X|θ)]θ~0
Guillaume Dehaene

3
@amoeba我想象硬派的贝叶斯风格和行为就像车长Che
Aksakal

Answers:


31

当我的数据集不是关于该主题的所有信息时,我会考虑贝叶斯方法,并希望以某种方式将这种外生知识纳入我的预测中。

例如,我的客户想要预测其投资组合中的贷款违约。他们有100笔贷款,并附有几年的季度历史数据。发生了几次拖欠(延迟付款)和几笔违约事件。如果我尝试估计此数据集上的生存模型,则估计的数据将很少,而预测的不确定性则太大。

另一方面,投资组合经理是有经验的人,其中一些人可能花了数十年的时间来管理与借款人的关系。他们对默认利率应该是什么样有想法。因此,他们有能力提出合理的先决条件。请注意,不是那些具有很好的数学特性并且看上去对我有吸引力的先验知识。我将与他们聊天,并以这些先验的形式提取他们的经验和知识。

现在,贝叶斯框架将为我提供机制,使先验形式的外生知识与数据相结合,并获得优于纯定性判断和纯数据驱动的预测的后验。这不是哲学,我也不是贝叶斯主义者。我只是使用贝叶斯工具将专家知识一致地整合到数据驱动的估算中。


3
一个非常好的观点。贝叶斯推理确实提供了一个框架,可以精确地解决您所提出的任务。谢谢。
Guillaume Dehaene

5
这是贝叶斯建模的一般论点,但是它与错误指定模型的特定情况有何关系?我没有看到连接。
理查德·哈迪

4
好吧,这确实与我的问题有关:即使在错误指定的情况下,贝叶斯推理也确实比通过MLE方法能够更好地(即,以更原则的方式)处理定性信息,而后者必须与正则化方法一起使用。这是关于为什么贝叶斯推理比MLE更好一些的一种经验论证形式。
Guillaume Dehaene

2
@Aksakal,除此之外,模型是否指定有误。我担心的是您没有回答这个问题。(如果OP表示不同意,那么我认为他在提出问题方面做得很差。)但是我看到最近进行了编辑,所以问题也许现在已经改变了。
理查德·哈迪

4
@RichardHardy,我认为我的回答进入了OP信念危机的核心,这是由以下思想驱动的:如果条件模型的指定不正确,那么它将随着样本量的增加而压倒先验,而后验将被推向错误的模型。他问,在这种情况下,为什么要开始考虑贝叶斯问题,为什么不直接采用MLE。我的例子绝对不是哲学上的,而是实用的:您通常不仅仅处理有限的样本,而是处理小的样本。因此,您的数据不会将后验信息拖到离先验信息太远的位置,这代表了外生知识。
阿克萨卡尔州

25

一个非常有趣的问题...可能没有答案(但这并没有使它变得不那么有趣!)

关于所有模型都是错误的模因的一些想法(以及指向我博客条目的许多链接!):

  1. 尽管假设模型确实几乎总是且不可避免地是错误的,但如果这是最好的方法,则对该模型以有效或连贯的方式行事仍然有意义。得出的推论产生对形式模型的评估,该形式与实际数据生成模型(如果有)“最接近”;
  2. 有贝叶斯方法可以不用该模型,最近的一个例子是Bissiri等人的论文(和我的评论)以及沃森和福尔摩斯与朱迪思·卢梭讨论过);
  3. 以联系的方式,存在一个处理M-open推理的贝叶斯统计的整个分支。
  4. 而另一个方向我想了很多是SafeBayes的方法彼得·格伦沃尔德,谁考虑了模型假设错误了下来分级版本替换的可能性表示为原始可能性的力量。
  5. Gelman和Hennig撰写的最近的Read Paper解决了这个问题,尽管这种方式是经过绕线的(我在自己的Blog上添加了一些评论)。我想您可以从有关您问题的条目中收集讨论的材料。
  6. 从某种意义上说,贝叶斯主义者应该在统计学家和建模者中对这一方面的关注最少,因为采样模型将被视为几个先前假设之一,并且结果是有条件的或对于所有这些先前假设。

2
对此有您的意见真是太好了。您的第一点很直观:如果模型不是太错误,则推断的结果应该可以。但是,有没有人证明过这样的结果(或凭经验探索了这个问题)?最后一点(我可能会误解了)让我感到困惑:采样模型是一个关键的选择。我们也做出选择的事实并不意味着抽样模型选择中的错误不会污染整个模型。感谢您的参考和精彩的博客。
Guillaume Dehaene

对于第1点,为什么不对贝叶斯模型进行平均?为什么只使用“最佳”模型?
innisfree

@innisfree:这完全取决于您打算如何处理结果,我不相信模型平均与最佳模型。
西安

1
您似乎在暗示平均模型不确定性与仅选择“最佳”模型有关的决策理论方面。当然,始终如一地有利,即有助于做出更好的决策,以连贯地纳入所有不确定性,包括模型不确定性。
innisfree

2
我对非参数的主要反对意见是切合实际的:与简单的替代方法相比,非参数方法的计算量要高几个数量级。此外,我们是否也不会遇到非参数问题,因为两个先前的发行版几乎不可能获得共同的支持?这意味着先验将产生重大影响,并且贝叶斯统计学家从不同的先验开始时几乎不可能达成一致。
Guillaume Dehaene

12

编辑:根据OP的要求,在正文中添加了对本文的引用。


我在这里给出的答案是朴素的经验贝叶斯方法。

首先,后验分布使您可以执行简单的MLE无法完成的计算。最简单的情况是今天的后天是明天的前天。贝叶斯推理自然地允许顺序更新,或者更多地在一般情况下在线或更多个信息源的延迟组合(并入先验只是这种组合的一个教科书实例)。具有非平凡损失函数的贝叶斯决策理论是另一个例子。我不知道该怎么办。

第二,用这个答案,我将尝试辩驳说,不确定性的量化通常比没有不确定性要好,这是一个实证性的问题,因为定理(正如您所提到的,据我所知)不能提供任何保证。

优化作为科学努力的玩具模型

我觉得一个域完全抓住了问题的复杂性是一个非常实用的,不严肃的一个,一个优化黑盒功能。我们假定,我们可以顺序查询点X X,并得到一个可能嘈杂观测Ý = ˚F X + ε,其中ε Ñ0 σ 2。我们的目标是尽可能接近x = arg min xf:XRDRxXy=f(x)+εεN(0,σ2)具有最少的功能评估。x=argminxf(x)

继续,因为你可能会想到一个特别有效的方法,是建立一个预测模型,如果我查询任何会发生什么,,并利用这些信息来决定下一步该怎么做(无论是本地或全球)。有关无导数全局优化方法的概述,请参见Rios和Sahinidis(2013)。当模型足够复杂时,这称为元模型代理功能响应面方法。至关重要的是,该模型可能是f的点估计(例如,径向基网络函数对我们的观测值的拟合),或者我们可能是贝叶斯模型,并且以某种方式获得了xXf(例如,通过高斯过程)。f

贝叶斯优化 使用后验(尤其是联合条件后验均值和任意点的方差)来指导通过某种有原则的启发式搜索(全局)最优值。传统的选择是在当前最佳点上最大化预期的改进,但是甚至还有一些更奇妙的方法,例如在最小位置上最小化预期的熵(另请参见此处)。f

此处的经验结果是,即使部分指定不正确,使用后部通常比其他方法产生更好的结果。(在高维情况下,贝叶斯优化并不比随机搜索更好。在本文中,我们对新的BO方法与其他优化算法进行了经验评估,检查使用BO是否方便在实践中,取得了可喜的结果。

正如您所问的那样,这比其他非贝叶斯方法具有更高的计算成本,并且您想知道为什么我们应该成为贝叶斯方法。这里的假设是,评估真实涉及的成本(例如,在实际情况下,复杂的工程或机器学习实验)要比贝叶斯分析的计算成本大得多,因此贝叶斯算不上什么f

我们可以从这个例子中学到什么?

首先,为什么贝叶斯优化完全起作用?我想,该模型是错误的,但并非错误的,和往常一样不正当取决于你的模型是什么。例如,的确切形状与优化无关,因为我们可以优化其任何单调变换。我想自然界充满了这种不变性。因此,我们正在进行的搜索可能不是最佳的(即,我们丢弃了良好的信息),但比没有不确定性信息的搜索要好。f

其次,我们的示例强调指出,成为贝叶斯的有用性可能取决于上下文,例如相对成本和可用(计算)资源的数量。(当然,如果您是顽固的贝叶斯主义者,那么您会相信,每次计算都是在某些先验和/或逼近下的贝叶斯推断。)

最后,最大的问题是- 从后验仍然有用而不是统计上的浪费的意义上说,为什么我们使用的模型毕竟不是那么糟糕?如果我们采用“无免费午餐”定理,显然我们不能说太多,但是幸运的是,我们不生活在完全随机(或对抗选择)函数的世界中。

一般而言,由于您放置了“哲学”标签,所以我想我们正在进入归纳问题或统计科学中数学的不合理有效性(特别是我们的数学直觉和指定模型的能力)的领域。从实际的先验观点来看,没有理由说我们的猜测应该是正确的或有任何保证的(当然,您可以建立数学反例以解决问题),但是它们却在转变在实践中表现良好。


2
很棒的答案。非常感谢您的贡献。贝叶斯优化与常规优化技术之间是否有任何评论/公平比较,以突出贝叶斯版本在经验上更好,如您所言?(我对您的话很满意,但您可以参考一下)
Guillaume Dehaene

1
谢谢!我认为概率数字召唤法包含一些理论和经验论证。我尚不知道一个基准可以真正将BO方法与标准方法进行比较,但是[ 触发警告:无耻的插入 ]我目前正在计算神经科学领域内沿着这些思路开展工作。我计划将某些结果放到arXiv上,希望在接下来的几周之内。
–lacerbi

确实,至少他们的图2有明确的比较。一旦主要问题解决,您可以将您的工作添加到主要问题中吗?我觉得这将是一个有价值的补充。
Guillaume Dehaene

是的-这是他们用于自适应贝叶斯正交的方法,这是一个很酷的想法(实际上,其有效性取决于GP近似是否有效;这通常几乎等同于说您对问题进行了合理的参数化)。可以的时候,我会将链接添加到答案,谢谢。
lacerbi '17

1
@IMA:对不起,我不认为我100%明白了。我将黑匣子优化作为科学尝试的玩具模型。我相信您可以将“科学”的许多步骤和问题映射到这个更简单(但仍然非常复杂)的领域。我的论证不需要“高斯噪声”假设,只是为了简单起见。实际的优化问题(例如,工程方面的问题)可能会被非高斯噪声破坏,这是需要解决的问题。高斯过程不需要高斯观测噪声(尽管它使推理变得容易)。
lacerbi

10

我今天只看到这种情况,但考虑到我是一个专家,并且至少有两个答案(nr 3和20(感谢提及我的西安!))提到了我的工作,我仍然应该坚持一下SafeBayes-特别是G.和van Ommen,“针对错误指定的线性模型的贝叶斯推断的不一致以及修复它的建议”(2014年)。我还想在评论2中添加一些内容:

2说:(在错误指定的情况下,贝叶斯的一个优点是...)“好吧,贝叶斯方法正则化。这是为了防止过度拟合-您的模型是否被错误指定。当然,这只会导致相关的问题贝叶斯推理反对正规化经典方法(套索等)的论点”

的确如此,但至关重要的是要补充一点,即贝叶斯方法可能不够正规化 如果模型错误。这是Van Ommen的工作重点-我们看到标准贝叶斯模型在某些回归上下文中使用错误但非常有用的模型非常过拟合。虽然不如MLE差,但仍然太多有用。在(惯常的和博弈论的)理论机器学习中,有很多工作要做,他们使用与贝叶斯相似的方法,但“学习率”要小得多,这使得先验知识和数据的重要性降低,从而使数据正规化。这些方法被设计为在最坏的情况下(错误指定甚至更糟糕的对抗性数据)可以很好地工作-SafeBayes方法被设计为从数据本身“学习最佳学习率”-以及最佳学习率(即最佳学习量)正则化

相关地,有一个民间定理(上面有几个提到)说,贝叶斯将集中在最接近KL散度与“真相”的分布上。但这仅在非常严格的条件下才适用-比在特定情况下收敛所需的条件要严格得多。如果您要处理标准的低维参数模型,并且数据是根据某种分布分布的(不在模型中),则后验的确会集中在模型中与KL散度最接近真点的点周围。现在,如果您要处理的是大型非参数模型,并且模型正确,那么(基本上)只要有足够的数据,您的后验仍将集中在真实分布上,只要您的先验者在真实分布范围内将足够的质量放在小的KL球中。这是如果模型正确,则在非参数情况下收敛所需的条件。

但是,如果您的模型是非参数的但不正确,那么即使您的先验质量接近那里的1(!),后验也可能根本不会集中在最接近的KL点附近-您的后验可能永远永远困惑,专注于不断变化的分布随着时间的流逝,但永远不会绕过最好的。在我的论文中,我有几个发生这种情况的例子。在错误指定条件下确实表现出收敛性的论文(例如Kleijn和van der Vaart)需要很多其他条件,例如模型必须是凸的,或者先验必须服从某些(复杂的)特性。这就是我所说的“严格”条件。

在实践中,我们经常处理参数化但非常高维的模型(请考虑贝叶斯岭回归等)。然后,如果模型是错误的,最终您的后验将集中在模型中的最佳KL分布上,但是仍然存在非参数不一致的微型版本:在收敛发生之前,可能需要更多数量级的数据-同样,我的论文范·奥门(Van Ommen)举例说明。

安全贝叶斯方法修改标准贝叶斯,以确保在(基本上)与充分说明的情况相同的条件下(即模型中的KL最优分布附近有足够的先验质量)在非参数模型中收敛(G.和Mehta,2014年) )。

还有一个问题是,贝叶斯是否甚至在错误指定的情况下也有正当理由。恕我直言(以及上面几个人所提到的),贝叶斯的标准理由(可容许性,野人,De Finetti,Cox等)在这里不成立(因为如果您意识到模型的指定不正确,则概率并不代表您的真实信念) !)。但是,许多贝叶斯方法也可以解释为“最小描述长度(MDL)方法”-MDL是一种信息理论方法,将“从数据中学习”等同于“尝试尽可能地压缩数据”。(某些)贝叶斯方法的这种数据压缩解释在错误指定的情况下仍然有效。所以还有一些在错误指定的情况下仍然存在的基本解释-但是,正如我在van Ommen的论文(以及原始文章中提到的置信区间/可信集问题)所显示的那样,仍然存在问题。

然后是关于原始帖子的最后一句话:您提到了贝叶斯的“可接纳性”理由(可追溯到1940年代/ 50年代沃尔德的完整水平)。这是否真的是贝叶斯的正当性,实际上很大程度上取决于一个人对“贝叶斯推理”的精确定义(每个研究者之间都有所不同……)。原因是,这些可接纳性结果允许人们使用一个先验的可能性,该先验取决于问题的各个方面,例如样本量,感兴趣的损失函数等。如果“实际”贝叶斯的数量达到他们必须处理的数据发生变化,或者感兴趣的损失函数突然发生变化。例如,对于严格的凸损失函数,minimax估计量也是可以接受的-尽管通常不认为它是贝叶斯!原因是对于每个固定样本大小,它们等效于具有特定先验的贝叶斯,但是对于每个样本大小,先验都不同。

希望这是有用的!


2
欢迎使用CrossValidated,并感谢您对这个问题的回答。小注释-您不能依靠答案的顺序与看到的顺序相同;不同的人可以按不同的顺序排序(在最高答案的顶部可以选择不同的排序标准),并且其中两个条件会随着时间而变化。就是说,如果您称他们为“ nr 3和20”,人们将不知道您的意思是什么。[我也只能找到十个答案。]
Glen_b

1
谢谢彼得的出色回答。我对您的评论感到困惑,认为在错误指定的情况下贝叶斯推理需要非常强的假设。您明确提到了哪些假设?您是否在谈论后验需要收敛到最佳参数值的狄拉克分布的条件?还是在谈论关于确保渐近正态性的可能性的更多技术条件?
Guillaume Dehaene

好的,感谢Glen B(主持人)-从现在起,我将牢记这一点。
彼得·格林瓦尔德(PeterGrünwald)

纪尧姆(Guillaume)-我正在更新以上内容,以考虑您的评论
彼得·格林瓦尔德(PeterGrünwald)

7

通常会有偏差-偏差权衡。贝叶斯推论假设M封闭的情况[1,2],具有较小的方差[3],但在模型错误指定的情况下,偏差的增长更快[4]。假设M开情况[1,2],它具有较高的方差[3],但在模型规格不正确的情况下,偏差较小[4],也可以进行贝叶斯推断。贝叶斯M封闭案例和M-开放案例之间的偏差方差折衷讨论也出现在以下参考文献中的某些参考文献中,但显然需要更多。

[1] Bernardo and Smith(1994)。贝叶斯理论。约翰·威利\&儿子。

[2] Vehtari和Ojanen(2012)。用于模型评估,选择和比较的贝叶斯预测方法的调查。统计调查,6:142-228。http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen和Aki Vehtari(2017)。贝叶斯预测方法在模型选择中的比较。统计与计算,27(3):711-735。http://dx.doi.org/10.1007/s11222-016-9649-y

[4]姚,维塔里,辛普森和安德鲁·盖尔曼(2017)。使用叠加来平均贝叶斯预测分布。arXiv预印本arXiv:1704.02030 arxiv.org/abs/1704.02030


7

这是在错误指定的模型中证明贝叶斯推理合理性的其他几种方法。

  • 您可以使用三明治公式(以与MLE相同的方式)在后均值上构建置信区间。因此,即使可信集没有覆盖范围,您仍然可以对点估计量产生有效的置信区间,前提是您对此感兴趣。

  • 您可以重新调整后验分布的比例,以确保可信集合具有覆盖范围,这是采用的方法:

Müller,UlrichK。“错误指定模型中的贝叶斯推断风险以及三明治协方差矩阵。” 计量经济学81.5(2013):1805-1849。

  • p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)

谢谢您的穆勒论文:我认为它回答了我很多问题。
Guillaume Dehaene

6

ptrue(X)p(X|θ)θ

ϕϕ0ϕ0p(X|θ,ϕ=ϕ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

A,¬Ap(θ|X,ϕ=ϕ0)=0

p(B|E)E=(E1,E2,,En)E,计算机程序将崩溃。我们从经验上发现了这一点'',经过一番思考,意识到这并不是令人沮丧的原因,而是一种有价值的诊断工具,可以警告我们无法预料的特殊情况,在这些情况下我们解决问题的方式可能会失败。

换句话说,如果您的问题表述不正确-如果您的模型是错误的,则贝叶斯统计信息可以帮助您发现情况确实如此,并且可以帮助您找到模型的哪个方面是问题的根源。

在实践中,可能尚不完全清楚哪些知识是相关的以及是否应将其包括在推导中。然后使用各种模型检查技术(Gelman等人的第6章和第7章,2013年进行概述)来找出并确定不正确的问题表述。

Gelman,A.,Carlin,JB,Stern,HS,Dunson,DB,Vehtari,A.,&Rubin,DB(2013)。贝叶斯数据分析,第三版。查普曼和霍尔/ CRC。

杰恩斯(Jaynes),美国东部时间(2003)。概率论:科学的逻辑。剑桥大学出版社。


1
XiXi

1
@GuillaumeDehaene您的问题是在未指定模型时是否存在使用贝叶斯的一些参数。显然,灾难性错误指定的模型是错误指定的。此外,您无法先验地知道模型是灾难性的错误指定还是只是错误指定。实际上,贝叶斯可以准确地告诉您这一点,这很有用,我的回答指出了这一点。
matus

1α

p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0

5

MLE仍然是您指定的模型中参数的估计量,并假定是正确的。可以使用MLE估计常客OLS中的回归系数,并且要附加到它的所有属性(无偏,特定的渐近方差)仍然假设您的特定线性模型是正确的。

我将更进一步,说每一次您想将含义和属性归于估算器时,都必须假设一个模型。即使采用简单的样本均值,您也假设数据是可交换的,并且通常为IID。

现在,贝叶斯估计量具有MLE可能没有的许多理想属性。例如,后验的部分合并,正则化和可解释性使它在许多情况下都可取。


您无需假设IID即可表示含义。假设可以交换就足够了(但是,是的,这仍然是一个假设……)
kjetil b halvorsen

@kjetil b halvorsen谢谢您,为清晰起见,我进行了编辑。
TrynnaDoStat

4

我推荐Gelman&Shalizi的哲学和贝叶斯统计学的实践。他们对这些问题有连贯,详细和实际的回答。

我们认为这种贝叶斯推断的观点大多是错误的。贝叶斯方法没有比任何其他统计推断模式更归纳。从假设推论的角度更好地理解贝叶斯数据分析。尽管Mayo(1996)倾向于频繁主义,但隐含在最佳贝叶斯实践中的立场与Mayo(1996)的错误统计方法有很多共同点。确实,在Mayo的意义上,贝叶斯数据分析的关键部分(例如模型检查)可以理解为“错误探测器”。

我们将结合对经验主义社会科学研究中贝叶斯数据分析的具体案例进行考察,并就贝叶斯更新的一致性和收敛性提供理论结果。社会科学数据分析对于我们的目的尤其重要,因为人们普遍认为,在此领域中,所有使用的模型都是错误的-不仅是可证伪的,而且实际上是错误的。有了足够的数据(通常只有相当少量的数据),任何分析师都可以以任何期望的置信度拒绝使用任何正在使用的模型。尽管如此,模型拟合还是一项有价值的活动,并且确实是数据分析的关键。要了解为什么会这样,我们需要检查如何构建,装配,使用和检查模型,以及规范错误对模型的影响。

...

我们认为,[标准贝叶斯观点]的最后一段的叙述是严重错误的。数据分析过程(贝叶斯或其他方法)并不以计算参数估计或后验分布为结尾。而是可以通过将拟合模型的含义与经验证据进行比较来检查模型。有人问这样的问题,例如来自拟合模型的模拟是否与原始数据相似,拟合模型是否与模型拟合中未使用的其他数据一致,以及模型所说的变量是否为噪声(“误差项”)。事实显示易于检测的模式。模型与数据之间的差异可用于了解模型不足以用于手头的科学目的的方式,从而激发模型的扩展和更改(第4节)。


2

xdm

p(x|d,m),
mx
p(x|d)=mp(x|d,m)p(m|d)

xmxm


3
模型平均无法挽救我们:假设真正的模型以某种方式巧妙地落在我们更大模型的范围之内仍然是愚蠢的。通过模型比较,我们可以确定几个模型中的哪个模型能最好地说明数据,但这只会返回错误的模型,而错误的模型比其他模型的错误少。
Guillaume Dehaene

它可以帮助您推断/估计未知量,这些未知量连贯地合并了模型不确定性。但是,它无法为您发明新的假设。如果有一个统计机制根据数据发明模型,例如科学会容易得多。
innisfree

1

您如何定义“错误指定”的模型?这是否意味着模型...

  • 做出“坏”的预测?
  • pŤX
  • 缺少参数?
  • 导致“坏”的结论?

如果您想到可能会错误指定给定模型的方式,那么您实际上将在提取有关如何制作更好模型的信息。在模型中包括额外的信息!

如果您考虑贝叶斯框架中的“模型”是什么,则始终可以创建一个不会错误指定的模型。一种方法是在当前模型中添加更多参数。通过添加更多参数,可以使模型更加灵活和适应性强。机器学习方法充分利用了这一思想。这是诸如“神经网络”和“回归树”之类的基础。不过,您确实需要考虑先验(类似于ML的正则化)。


模型1: X一世=θ+σË一世
Ë一世ñ01个
模型2: X一世=θ+σË一世w一世

Ë一世ñ01个θ

w一世ñ01个


XFX
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.