在执行贝叶斯推理时,我们通过最大化似然函数以及关于参数的先验来进行操作。因为对数似然比更方便,所以我们使用MCMC 有效地最大化或以其他方式生成后验分布(使用pdf每个参数的先验和每个数据点的可能性)。
如果我们有大量数据,那么通过简单的数学方法,可能会淹没先验提供的任何信息。最终,这是好的,这是设计使然。我们知道,后验将收敛到具有更多数据的可能性,因为它应该这样做。
对于共轭先验定义的问题,这甚至是完全可以证明的。
有没有一种方法可以确定何时先验对给定的似然函数和样本量不重要?
在执行贝叶斯推理时,我们通过最大化似然函数以及关于参数的先验来进行操作。因为对数似然比更方便,所以我们使用MCMC 有效地最大化或以其他方式生成后验分布(使用pdf每个参数的先验和每个数据点的可能性)。
如果我们有大量数据,那么通过简单的数学方法,可能会淹没先验提供的任何信息。最终,这是好的,这是设计使然。我们知道,后验将收敛到具有更多数据的可能性,因为它应该这样做。
对于共轭先验定义的问题,这甚至是完全可以证明的。
有没有一种方法可以确定何时先验对给定的似然函数和样本量不重要?
Answers:
这不是那么容易。数据中的信息会淹没先验信息,不仅样本量很大,而且当数据提供足够的信息以淹没先验信息时。信息量少的先验信息容易被数据说服,而信息量大的先验信息可能更具抵抗力。在极端情况下,由于先验定义不明确,您的数据可能根本无法克服(例如,某些区域的密度为零)。
回想一下,根据贝叶斯定理,我们在统计模型中使用了两种信息源,即数据外信息,先验信息和似然函数中的数据传递信息:
当使用无信息的先验(或最大可能性)时,我们尝试将尽可能少的先验信息引入模型。通过提供先验信息,我们将大量信息带入模型。因此,无论是数据还是先验数据,都可以告诉我们估计参数的哪些值更合理或更可信。它们可以带来不同的信息,并且在某些情况下,每个信息都可以击败其他信息。
让我用非常基本的beta二项式模型来说明这一点(有关详细示例,请参见此处)。如果使用“不提供信息”的先验,那么很小的样本可能足以胜过它。在下面的图中,您可以看到具有不同样本数量的同一模型的先验(红色曲线),似然性(蓝色曲线)和后验(紫色曲线)。
另一方面,您可以根据数据的说服力获得接近真实价值的先验信息,这也很容易,但不如每周提供信息的先验信息那么容易。
与信息先验相比,情况与数据有很大不同(使用与第一个示例相同的数据),情况就大不相同了。在这种情况下,您需要更大的样本来克服之前的问题。
因此,这不仅与样本量有关,还与您的数据和先验数据有关。请注意,这是一种期望的行为,因为在使用信息先验时,我们希望在模型中潜在地包含数据不足信息,如果大样本始终丢弃先验,则这是不可能的。
由于复杂的后验-先验-先验关系,最好查看后验分布并进行一些后验预测检查(Gelman,Meng和Stern,1996; Gelman和Hill,2006; Gelman等,2004)。此外,如Spiegelhalter(2004)所述,您可以使用不同的先验条件,例如对大型效果表示怀疑的“悲观主义者”,或对估计效果乐观的“热情主义者”。比较先验与数据的不同行为可能有助于非正式地评估先验对后验的影响程度。
Spiegelhalter,DJ(2004)。将贝叶斯思想纳入保健评估。统计科学,第156-174页。
Gelman,A.,Carlin,JB,Stern,HS和Rubin,DB(2004)。贝叶斯数据分析。查普曼和霍尔/ CRC。
Gelman,A. and Hill,J.(2006)。使用回归和多层次/层次模型进行数据分析。剑桥大学出版社。
Gelman,A.,Meng,XL,and Stern,H.(1996)。通过实际差异对模型适用性进行后验预测评估。统计数据:733-760。
在执行贝叶斯推理时,我们通过结合参数先验值使似然函数最大化来进行操作。
实际上,这并不是大多数从业者认为是贝叶斯推理的东西。可以通过这种方式估算参数,但是我不会将其称为贝叶斯推断。
贝叶斯推断使用后验分布来计算竞争假设的后验概率(或概率比)。
可以通过蒙特卡洛或马尔可夫链蒙特卡洛(MCMC)技术凭经验估计后验分布。
撇开这些区别,问题是
贝叶斯先验是否与大样本量无关?
仍然取决于问题的背景和您关心的内容。
如果您关心的是给定已经非常大的样本的预测,那么答案通常是肯定的,先验与渐近无关紧要*。但是,如果您关心的是模型选择和贝叶斯假设检验,那么答案是否定的,先验问题很重要,并且其影响不会随着样本量的增加而恶化。
*这里,我假设先验不会在似然所暗示的参数空间之外被截断/删节,并且它们没有那么明确地规定在重要区域中引起接近零密度的收敛问题。我的论点也是渐近的,它伴随着所有常规警告。
如果对贝叶斯模型选择和假设检验感兴趣,他们应该意识到先验效应不会渐近消失。
要记住的另一个问题是您可以拥有大量数据,但是关于模型中某些参数的信息仍然很少。在这种情况下,进行推理时,即使信息量适中的先验也可能非常有帮助。
举一个愚蠢的例子,假设您正在比较两组的均值,并且您有1,000,000组1的样本和10组2的样本。那么,即使您已收集了超过一百万的数据,显然具有关于组2的先验知识也可以改善推断样品。
尽管这个例子可能是微不足道的,但它开始带来一些非常重要的含义。如果我们想了解一些复杂的现象,明智的做法是收集有关我们不了解的零件的大量信息,而收集有关我们确实了解的零件的信息较少。如果我们以这种方式收集大量数据,那么由于我们拥有大量数据而抛弃先验是一个非常糟糕的选择。我们只是推迟了分析,因为我们没有浪费时间收集有关我们已经知道的事情的数据!