什么时候(如果有的话)频频论的方法比贝叶斯方法更好?


72

背景:我没有接受贝叶斯统计方面的正式培训(尽管我对学习更多内容非常感兴趣),但我知道-我想知道的要点是为什么许多人觉得它们似乎比频率统计更可取。甚至我所教授的入门统计学(社会科学)课程中的大学生都发现贝叶斯方法很吸引人-“为什么我们对计算数据的概率感兴趣(给定null呢?)为什么我们不能仅仅量化是零假设还是替代假设?我也读过类似这样的线索,它们也证明了贝叶斯统计的经验优势,但后来我碰到了布拉斯科(Blasco,2001;重点强调):

如果动物育种者对与归纳相关的哲学问题不感兴趣,但对解决问题的工具感兴趣,那么贝叶斯推理派和惯常论推论派都已建立,并且没有必要证明为什么选择另一派或另一派来论证。除了一些复杂的案例外,它们现在都没有操作上的困难... 选择一所学校或另一所学校应与一所学校是否存在另一所学校没有提供的解决方案,解决问题的容易程度有关,以及科学家对特定表达方式的感觉如何。

问题:布拉斯科的名言似乎暗示,有时频频方法实际上比贝叶斯方法更可取。因此,我很好奇:什么时候比贝叶斯方法更偏爱常去方法?我对从概念上(即什么时候知道以原假设为条件的数据的概率特别有用?)和凭经验(即在什么条件下Frequentist方法优于贝叶斯方法?)都可以解决这个问题的答案感兴趣。

如果答案尽可能地易于传达也将是可取的-最好将一些答案反馈给我的班级以与我的学生分享(尽管我知道需要一定程度的技术性)。

最后,尽管经常使用频率统计,但实际上我对贝叶斯全盘获胜的可能性持开放态度。


10
当您处理客观概率时,即自然随机过程。例如,放射性衰变与您的主观信念,未知信息或几乎其他任何事物都没有关系。它只是按照自己的步调运行,原子真正随机地分裂。
阿克萨卡尔州

6
不幸的是,看到这个最近的问题因过于广泛而结束(我投票决定重新开放,但从未如此):stats.stackexchange.com/questions/192572。您问的几乎是同一件事。检查那里的答案。
变形虫

5
@Aksakal:我很想进行这个讨论,但它是不合时宜的,我们将被告知所以我闭嘴(并计算)。
amoeba

12
“贝叶斯主义者通过使用没人相信的假设来解决每个人都感兴趣的问题,而常客则使用无可挑剔的逻辑来处理任何人都不感兴趣的问题” –路易·里昂
Ruggero Turra

4
@jsakaluk,请注意贝叶斯的据点是在没有足够数据或过程不稳定的区域,例如社会科学,伪科学,生命科学等。在量子力学或大多数物理学中都不需要贝叶斯。当然,您也可以在那里成为贝叶斯主义者,只是您的推论与常客
主义者的

Answers:


54

以下是为什么偏爱频繁使用者方法的五个原因:

  • 快点。鉴于贝叶斯统计通常会给频密者答案提供几乎相同的答案(如果不是,则贝叶斯始终不是走100%的路子),频密者统计通常可以更快地获得几个数量级的事实是有力的论据。同样,频繁使用的方​​法不需要太多的内存来存储结果。尽管这些事情看似微不足道,尤其是在数据集较小的情况下,但贝叶斯和频率论通常会在结果上达成共识(尤其是如果您有大量信息数据时),这意味着如果您要关心,则可能会开始关注不太重要的事情东西。当然,如果您生活在大数据世界中,那么这些都不是小事。

  • 非参数统计。我认识到贝叶斯统计量确实具有非参数统计量,但是我认为该领域的常客方具有一些真正不可否认的实用工具,例如经验分布函数。世界上没有任何方法可以替代EDF,也不能替代Kaplan Meier曲线等(尽管显然这并不是说这些方法是分析的终点)。

  • 诊断较少。MCMC方法是最适合贝叶斯模型的方法,通常需要用户比他们的常客相对多的工作。通常,MLE估计的诊断非常简单,以至于任何好的算法实现都会自动执行(尽管这并不是说每个可用的实现都是好的...)。因此,常客算法诊断通常是“确保在拟合模型时没有红色文本”。考虑到所有统计人员的带宽都有限,这可以腾出更多时间来提问“我的数据真的很正常吗?”之类的问题。或“这些危害真的成比例吗?”等

  • 在模型错误指定下的有效推断。我们都听说过“所有模型都是错误的,但有些模型是有用的”,但是不同的研究领域或多或少都对此予以重视。当模型未正确指定时,Frequentist文献中充斥着各种方法来修正推论:自举估计器,交叉验证,三明治估计器(链接还讨论了模型错误指定下的一般MLE推论),广义估计方程(GEE),拟似然法,依我所知,在贝叶斯文献中关于模型错误指定下的推论很少(尽管对模型检查(即后验预测检查)的讨论很多)。我不认为这是偶然的:评估估算器在反复试验中的行为方式并不需要估算器基于“真实”模型,而使用贝叶斯定理却可以!

  • 摆脱先验(这可能是人们不对所有事物使用贝叶斯方法的最常见原因)。贝叶斯立场的优势经常被吹捧为使用先验。但是,在我工作过的所有应用领域中,都没有考虑在分析中提供先验信息的想法。阅读有关如何从非统计专家那里获得先验知识的文献就可以很好地说明这一点;我读过一些论文,上面写着(残酷的稻草人喜欢解释我自己的意思):“请雇用您的研究人员,因为他们难以理解统计数据,无法确定他们有难以想象的效果大小的范围是90%该范围通常太窄,因此请任意尝试使它们扩大一点,询问他们的信念是否看起来像伽马分布。您可能必须为它们绘制一个伽马分布,并显示形状参数较小时尾巴如何具有沉重的尾巴。这也将涉及向他们解释PDF。”(注:我认为即使统计人员也无法真正说出先验确定它们是90%还是95%,可以确定效应大小是否在一个范围内,并且这种差异会对分析产生实质性影响!)。实话实说,我很不友好,在某些情况下,获得先验可能会更加直接。但是您可以看到这是一罐蠕虫。即使您切换到非信息优先级,这仍然是一个问题;在转换参数时,容易被误认为是非信息性先验的信息可以被视为非常有用的信息!另外一个例子是,我已与一些研究者谁坚决做到谈到想要听到另一位专家对数据的解释是什么,因为根据经验,另一位专家往往过分自信。他们宁愿知道可以从另一位专家的数据中推断出什么,然后得出自己的结论。我不记得在哪里听到的,但是在某个地方我读到“如果您是贝叶斯人,您希望每个人都成为一个常客”这一短语。我的解释是,从理论上讲,如果您是贝叶斯人,并且有人描述了他们的分析结果,则应首先尝试消除其先验的影响,然后弄清楚如果使用自己的影响,将会产生什么样的影响。如果他们给您一个置信区间而不是可信区间,那么这个小练习将被简化!

当然,如果您放弃先验的先验知识,贝叶斯分析中仍然会有实用性。我个人认为,这是他们发挥最大作用的地方。使用MLE方法很难解决一些问题,但是使用MCMC可以很容易地解决这些问题。但是,我认为这是贝叶斯算法的最高效用是因为我的先验知识很强,因此请带一点盐。


1
(+1)尼斯的答案,但我假设你的意思是你没有需要尽可能多的内存来存储的结果?
jsakaluk '16

1
关于免于先验的自由:您是说思考和理解问题的次数越少越好?我知道有几家软件供应商想与您交谈,因此您可以单击n键单击,或者更好的是单击即可,并为您可以想象的任何问题提供答案!哎呀,您甚至不需要任何问题,只需将数据输入他们的网站,他们就会发现所有可能的问题并加以解决,这很甜!(对不起,我忍不住要像一个残酷的稻草人那样回答。)
韦恩

1
@Wayne:我知道你在开玩笑,但这是100%正确的。统计数据是回答现实世界问题的工具。我真的要强调,它是一种工具,而不是最终产品。不管经过“ Frequentist vs Bayesian”论调到底是哪一边(我坐在“对我的问题给出最佳答案的那一方”,这意味着我都喜欢不同的问题),没有争论说易用性是任何工具的真正实用工具。
Cliff AB

当然,如果您的工具经常生产出糟糕的产品,那将是一个问题。而且,如果我确信采用了一种常客方法,但没有贝叶斯方法,那么我会很快认可贝叶斯方法。
Cliff AB

1
@CliffAB:易于使用很重要,正如您所说的,如果结果质量相同,为什么还要选择难以使用的呢?同时,思考,明确和理解先验知识(不是贝叶斯理论,我的意思是每个科学家,每个领域和每项研究都拥有的先验知识)对于良好的科学至关重要。贝叶斯统计是显式的,它迫使您考虑和理解其中的一些问题。从某种意义上说,这不仅是给学生带来的不便,还可以说是很好的,所以它的对立面也不是灌篮高手。
韦恩

23

经常性统计的一些具体优点:

  • 通常有针对常客问题的封闭式解决方案,而在贝叶斯类似物中具有封闭式解决方案之前,您需要共轭。出于多种原因,这很有用-其中之一是计算时间。
  • 希望最终会消失的一个原因:外行教有常客统计数据。如果您想被很多人理解,您需要说常客。
  • 如果目标是证明某人错了(我将假设您是对的,并且显示出压倒性的数据表明您错了),那么使用“直到被证明有罪才无罪”的零假设假设意义测试(NHST)方法非常有用。是的,贝叶斯中有NHST类似物,但我发现常客主义者的版本更加简单明了。
  • 没有这样的事情作为一个真正的无信息之前,这让一些人感到不舒服。

1
(+1)谢谢-您能澄清一下第一点吗?作为一个不熟悉贝叶斯的人,您对“共轭先验”(?)的需求已对我有点
迷惑

5
我认为您没有正确地解释频率论假设检验。您只是给了,但p值实际上是。对p值的正确解释:给定null,则只有%的机会获得比所观察到的极端或更高的结果。在争论贝叶斯方法时经常会引起这种误解。除此之外,我喜欢你的回答。P(H0|Data)P(Data|H0)α
Zachary Blumenfeld

@ZacharyBlumenfeld感谢您指出,我想到了贝叶斯。现在病了。
TrynnaDoStat'2

1
@jsakaluk如果后验和先验分布相同,则称先验是共轭的-保证后验封闭形式。例如,如果我们的数据是伯努利(Bernoulli),并且我们选择了Beta(,)在先,那么我们知道后验是Beta(,),而无需进行任何模拟,采样或大量计算。αβα+i=1nxiβ+ni=1nxi
TrynnaDoStat

16

使用Frequentist方法的最重要原因是错误控制,这一点令人惊讶地尚未提及。很多时候,研究会导致二分法的解释(我是否应该以此为基础进行研究?是否应该实施干预?)。惯常方法可让您严格控制1型错误率。贝叶斯方法没有(尽管某些方法继承了似然方法的通用边界,但是即使那样,在小样本中,错误率也可能很高,证据阈值也相对较低(例如,BF> 3)。贝叶斯因素(例如,请参阅http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2604513),但这仍然是一种常见的方法。我认为很多时候,研究人员更关心错误控制而不是量化证据本身(相对于某些特定的假设),而且我认为至少每个人在某种程度上都关心错误控制,因此应该使用两种方法互补地。


好点子。我还考虑了群体顺序方法和其他形式的多重测试,在这些情况下(从我的狭narrow角度来看,这似乎忽略了文献的大部分内容)在贝叶斯方面似乎缺乏兴趣(因此远)获得某种错误控制。当然,在许多情况下,贝叶斯方法-尤其是对先验有所怀疑或通过层次模型进行某种程度的缩减,确实可以将误差控制到某种无法量化的程度,但是在那里的常客主义方面已经做了很多思考。
比约恩

3
(+1)我真的很喜欢这一点...因为这是我从理论上讲是常客的原因....当我们进行统计以帮助进行推断时,我们希望我们的推断更加准确(即错误更少)而不是盲目的猜测。实际上,如果我完全在乎我的推论是正确的还是错误的(在后续研究中得到证实),那么错误率就非常重要。我只是对贝叶斯概率感到不满意(但是,当样本量较小时,这些方法本身对于有意义的“正则估计量”非常有用...认为Agresit-Coull)

这听起来更像是决策理论,而不是贝叶斯/频率比较法。另外,使用贝叶斯方法,您不必担心停止规则。...我也了解贝叶斯可以在1型和2型错误率之间实现更好的“平衡”。...–
概率

8

我认为,作为统计学家,最大的问题之一是,您必须问自己:您是否相信或想要坚持可能性原则。如果您不相信似然原理,那么我认为统计学的常识范式可能非常强大,但是,如果您确实相信似然原理,那么(我相信)您肯定会在或不违反它。


如果您不熟悉它,似然原理告诉我们以下内容:

似然原理:在观察到某些数据后对进行推断或决策时,所有相关实验信息均包含在似然函数中: 其中对应于观察到的数据,因此是固定的。θx

(θ;x)=p(x|θ)
x

此外,如果和是两个采样点,使得与成比例,则,存在一个常数使得xy(θ;x)(θ;y)C(x,y)

(θ;x)=C(x,y)(θ;y)for all θ,

那么从和得出的结论应该是相同的。\xy

请注意,上述常数对于不同的对可能有所不同,但不依赖。C(x,y)(x,y)C(x,y)θ

在的特殊情况下,似然原理指出,如果两个采样点产生相同的似然函数,则它们包含有关的相同信息。但是,可能性原则则更进一步。它指出,即使两个采样点仅具有成比例的似然,它们也包含有关等效信息。θ θC(x,y)=1θθ


现在,贝叶斯统计的吸引之一是,在适当的先验条件下,贝叶斯范式永远不会违反似然性原理。但是,在非常简单的场景中,频繁使用者范例将违反似然性原理。

这是一个基于假设检验的非常简单的示例。考虑以下:

考虑一个进行了12次Bernoulli试验并观察到3次成功的实验。根据停止规则,我们可以将数据表征如下​​:

  • 二项式分布:和数据:X = 3X|θBin(n=12,θ)x=3
  • 负二项式分布: 和数据:ÿ = 12Y|θNegBin(k=3,θ)y=12

因此,我们将获得以下似然函数: ,这意味着 ,因此,根据似然原理,我们应该从任一可能性中获得关于的相同推论。

1(θ;x=3)=(123)θ3(1θ)92(θ;y=12)=(112)θ3(1θ)9
1(θ;x)=C(x,y)2(θ,y)
θ

现在,想像一下从范式检验以下假设

Ho:θ12versusHa:θ<12

对于二项式模型,我们具有以下内容:

p-value=P(X3|θ=12)=(120)(12)12+(121)(12)12+(122)(12)12+(123)(12)12=0.0723

请注意但其他术语可以不满足似然性原则。(123)(12)12=1(12;x=3)

对于负二项式模型,我们具有以下内容:

p-value=P(Y12|θ12)=(112)(12)12+(122)(12)12+(132)(12)12+...=0.0375

从上面的p值计算中可以看出,在二项式模型中,我们将拒绝拒绝但是在使用负二项式模型中,我们将拒绝。因此,即使仍然存在p值,并且基于这些p值的决策也不一致。这种p值参数是贝叶斯人经常使用的反对使用频繁p值的参数。HoHo1(θ;x)2(θ;y)

现在考虑再次测试以下假设,但来自贝叶斯范式

Ho:θ12versusHa:θ<12

对于二项式模型,我们具有以下内容:

P(θ12|x)=1/21π(θ|x)dx=1/21θ3(1θ)9π(θ)dθ/01θ3(1θ)9π(θ)dθ

同样,对于负二项式模型,我们具有以下内容:

P(θ12|y)=1/21π(θ|x)dx=1/21θ3(1θ)9π(θ)dθ/01θ3(1θ)9π(θ)dθ

现在使用贝叶斯决策规则,如果(或其他一些阈值),则选择,重复类似的操作。HoP(θ12|x)>12y

但是,这样我们得出相同的结论,因此该方法满足似然原理。P(θ12|x)=P(θ12|y)


因此,总结一下我的观点,如果您不关心似然原理,那么经常出入是很棒的!(如果您不能告诉我,我是贝叶斯:))


1
我很欣赏清楚周到的(并且可能很耗时的)回答,但是我觉得这个答案与问题的“答案...尽可能容易传达...”任务有点背离。
jsakaluk '16

1
@jsakaluk我想我的目标是要确保支持该论点,那就是如果您愿意忽略许多应用统计学家一直认为的某些事情,即似然原理,则使用频繁主义者范式可以比贝叶斯范式更简单。但是,如果不能,则很可能必须找到替代方法。
RustyStatistician

4
@RustyStatistician似然性原则是似然论者的主要信条。Likelihoodists不贝叶斯可言。我在答案中张贴了链接。您的主张“如果您确实相信似然原理,那么(我相信)您肯定会拥护贝叶斯范式”是错误的。
stan 2013年

@斯坦我同意你的观点,是的,可能性论者相信可能性论原则。但是我很难相信,如果您问任何贝叶斯主义者,他们是否会坚持遵循他们会说不的不可能性的可能性原则(这只是我的观点,您不必同意)。
RustyStatistician

2
似然性原则(LP),条件性原则(CP)和充分性原则(SP)在推理中的作用并不简单。这是因为这些原则与证据相关(如数据所示),而推理则涉及超越证据。这总是有风险的,但是要取得进展是必要的。参见伯恩鲍姆斯定理(在此讨论...我不一定同意本文的其余部分):arxiv.org/abs/1302.5468

6

您和我都是科学家,作为科学家,他们主要对证据问题感兴趣。因此,我认为贝叶斯方法是可行的。

贝叶斯方法回答了我们的问题:一种假设相对于另一种假设的证据强度是什么?另一方面,频率论方法则不这样做:它们仅报告给定一个假设的数据是否怪异。

话虽如此,著名的贝叶斯经济学家安德鲁·盖尔曼(Andrew Gelman)似乎支持使用p值(或类似p值的图形检查)来检查模型规范中的错误。您可以在此博客文章中看到对这种方法的暗示。

据我所知,他的方法分两个步骤进行:首先,他问贝叶斯问题:一个模型相对于另一个模型的证据是什么?其次,他问频率论者(Frequentist)的问题,即在给定数据的情况下,首选模型实际上是否看起来合理。对我来说,这似乎是一种合理的混合方法。


1
尽管到Gelman博客的链接应该仍然有效,但在午夜之后不会是“今天的”。进行了相应的编辑。
Nick Cox

8
我坚决不同意这样一种说法,即频繁采用的方法无法衡量证据,而这仅是在贝叶斯世界中。您没有考虑诸如LR检验之类的假设检验的起源,而是将一种假设的证据与另一种假设的证据进行比较。
悬崖AB

1
(+1)到@CliffAB-对于每个在考虑“频率”统计数据的人,请查阅“可能性比”,“伯恩鲍姆定理”,并可能会读一些Royall。...涉及NHST的人争论-顺便说一句,尽管它具有灾难性的缺陷,但似乎并没有抑制科学进步。...这是因为统计学家不是基于碳的MINITAB计划...实际上是一个专业,就像医学,经济学或汽车机械一样,...您不能只是读书,尝试公式并期望真理落在您的腿上]。

2
@Bey:我个人认为p值对科学过程起到了一定的抑制作用(因为生物学家被迫成为兼职统计学家来发表论文,减少了他们成为生物学家的时间),我没有不要以任何方式认为p值的替代方法会减少此问题!我认为p值的问题不是其理论背景,而是非统计人员易于使用的问题。(例如)我认为后验概率使特定问题变得更糟,而不是更好。
Cliff AB

2
@CliffAB完全不同意...从那边没有想到..但这只是出版的性质,我想...除非研究部门能负担得起统计人员。任何统计工具都可能被不熟悉其用法的人滥用...可惜统计工具似乎很容易使用...

6

就我个人而言,我很难想到一种情况,在这种情况下,比起贝叶斯问题,更倾向于选择常问问题。关于此问题以及fharrell.com上其他博客文章中有关p值和无效假设检验的问题,我的想法得到了详细说明。经常有人倾向于忽略一些基本问题。这只是一个示例:

  • 在具有恒定方差和其他一些情况的高斯线性模型之外,对于您的数据集和模型,所计算的p值的准确性未知
  • 当实验是顺序实验或自适应实验时,通常情况下甚至无法计算p值,而只能设置一个整体级别才能达到α
  • 经常出现的问题似乎很高兴不要让I型错误降低到例如0.05,无论现在样本量如何增长
  • 没有关于如何形成多重校正的常客主义处方,从而导致方法的特殊杂乱

关于第一点,一个常用的模型是二进制逻辑模型。它的对数可能性非常非二次方,并且针对此类模型计算的绝大多数置信度限制和p值都不十分准确。与贝叶斯逻辑模型相反,后者提供了精确的推论。

其他人则提到错误控制是使用频繁推断的原因。我不认为这是合乎逻辑的,因为他们所指的错误是长期错误,并设想了一个运行数千个统计测试的过程。法官说“我法庭上的长期错误定罪概率只有0.03”,应该予以驳回。她被指控为当前被告做出正确决定的可能性最大。另一方面,减去一个效应的后验概率是零概率或向后效应,这是我们实际需要的错误概率。


2
“没有关于如何形成多重校正的常客主义处方,这导致了方法的特殊杂乱。” 另一方面,我从未见过贝叶斯可乘性校正。安德鲁·盖尔曼(Andrew Gelman)甚至自豪地宣布自己从未使用过它们。例如,我见过人们报告边际可信区间为95%,但是这区间的联合可信度不是95%。如何解决这个问题也不是显而易见的。您有什么建议或例子吗?θ1,,θkk
civilstat

5

许多人似乎没有意识到第三种哲学流派:似然论。AWF爱德华兹(AWF Edwards)的《可能性》(Likelihood)可能是阅读该书的最佳场所。是他写的一篇简短文章。
像贝叶斯主义那样,似然主义避开了p值,但也避开了贝叶斯通常令人怀疑的先验条件。有一个介绍的治疗在这里为好。


5
Vovk有一种算法概率方法,它是从Kolmogorov的思想发展而来的。
阿克萨卡尔州

2
“许多人似乎并不了解第三哲学流派:似然论”我认为这句话在2016年是不正确的……
蒂姆

4
@Tim,尽管我认识的每个人都熟悉频繁性和贝叶斯主义,但我从未见过任何听说过似然性的人。最初的提问者似乎就像我的同事们一样,他们接受过频繁的训练,并且对贝叶斯主义越来越感兴趣。也许大多数阅读以上答案的人都认为我指的是最大似然估计或使用似然比检验假设。不!我建议遇敌Pawitan这次讲座
斯坦

7
这些方法都不是宗教,因此没有什么可相信的,它们仅对某些类型的问题有用,并且某些方法更适合某些问题,而其他一些则更适合:)
Tim

1
(+1)提及可能性学校和有关Pawitan的评论。帕维坦(Pawitan)的书“一切可能性”通过统计学实践得到了极大的扩展和增强……我也只知道贝叶斯与频率主义。他处理了贝叶斯的许多哲学和方法论方面的问题,即“古典”的频繁主义问题,并且当然涵盖了纯似然学派。不管您的哲学倾向如何,这都是一本非常出色的书,可以让您更加熟练地使用统计数据。

4

正如TrynnaDoStats在他的第一点中指出的那样,经常采用的方法进行建模的最大缺点之一一直是反转大型封闭式解决方案所面临的挑战。闭式矩阵求逆要求整个矩阵都驻留在RAM中,这对具有大量数据或大量分类特征的单个CPU平台是一个重大限制。贝叶斯方法已经能够通过模拟指定先验的随机抽签来解决此难题。尽管只有付出大量的CPU成本才能获得答案,但这一直是贝叶斯解决方案的最大卖点之一。

安德鲁·安斯利(Andrew Ainslie)和肯·特恩(Ken Train)在大约10年前的一篇论文中,我已经失去了参考,将有限混合(常用或封闭形式)与贝叶斯模型构建方法进行了比较,发现在广泛的功能形式中和性能指标,这两种方法的结果基本相同。在信息既稀疏又具有很高维度的情况下,贝叶斯解决方案具有优势或具有更大的灵活性。

但是,该论文是在开发使用大规模并行平台的“分而治之”算法之前撰写的,例如,有关此http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-的更多信息,请参见Chen和Minge的论文。 01.pdf

D&C方法的问世意味着,即使对于最毛茸茸,最稀疏,最大维度的问题,贝叶斯方法也不再具有优于频繁方法的优势。这两种方法是平价的。

这种相对较新的发展在有关这两种方法的实际优势或局限性的任何辩论中都值得注意。


我认为这是对讨论(+1)的不错补充,但我很难遵循。它真的,真的,真的推迟了它的重点...也许您可以对其进行一些重组?:)
usεr11852

@ user11852您并不是说该帖子未能传达出有用的信息,而您确实发现逻辑的发展不符合新闻工作者的标准。由于该主题已成为“社区”,因此我不太倾向于(有动机吗)围绕您的建议进行重组。它可以原样站立。但是无论如何,谢谢您的支持和评论。
Mike Hunter

1.)矩阵求逆经常用于MLE估计(这只是许多常用方法之一),但并非总是如此。我在MLE估计中的工作通常涉及多达参数的优化(即参数空间可以随样本大小线性增长),并且绝对不能选择矩阵求逆...但是我仍然优化了似然性!2.)矩阵求逆在贝叶斯统计中始终始终发生,例如块更新器采样器。n
Cliff AB

@CliffAB我正在考虑交叉积矩阵的ANOVA型反转。
Mike Hunter

@DJohnson:我知道了。但是我的观点是,矩阵求逆与频繁方法和贝叶斯方法正交。两个阵营都使用在许多方法上做得非常相似的工具(至少在计算成本方面)。
悬崖AB

3

经常性检验的重点是伪造原假设。但是,也可以从贝叶斯角度进行零假设意义检验(NHST),因为在所有情况下,NHST都只是P(观察到的效应|效应= 0)的计算。因此,很难从频繁主义者的角度确定何时进行NHST。

话虽这么说,使用常识性方法进行NHST的最佳论据是简便和可访问性。教会人们常识统计。因此,运行频繁的NHST更加容易,因为还有更多的统计软件包使执行此操作变得简单。同样,由于人们熟悉这种形式的NHST,因此更容易交流常客NHST的结果。因此,我认为这是频繁使用方法的最佳论据:可以访问将运行统计程序的统计程序,以及易于将结果传达给同事。但是,这只是文化性的,因此,如果常人主义的方法失去霸权,这种论点可能会改变。


5
除非您提供准确的报价,否则有关费舍尔思想的评论似乎在这里显得过分。无效假设是作为重要性检验的一部分的一种手段,旨在阻止科学家过度解读小样本的结果。费舍尔(Fisher)像其他人一样热衷于科学家应该利用统计数据来做好科学。他本人是遗传学的非常重要的贡献者。
Nick Cox

4
我完全同意,因此我编辑了答案,以消除有关费舍尔心理状态的猜测。
Liz Page-Gould

3

几点评论:

  • 贝叶斯统计学和常客统计学家之间的根本区别在于,贝叶斯愿意将概率工具扩展到常客不会的情况。

    • 更具体地说,贝叶斯愿意使用概率来模拟各种参数下她自己的不确定性。对于常客来说,这些参数是标量(尽管统计学家不知道真实值的标量)。对于贝叶斯,各种参数都表示为随机变量!这是完全不同的。贝叶斯参数谷的不确定性由一个先验表示。
  • 在贝叶斯统计中,希望是在观察数据后,后验会淹没先验,先验无关紧要。但这通常并非如此:结果可能对优先级的选择很敏感!具有不同先验的不同贝叶斯不需要在后验上达成一致。

要记住的一个关键点是,常客统计学家的陈述是任何两个贝叶斯主义者都可以同意的陈述,而不管他们先前的信念如何!

该常客不评论先验或后继,仅评论可能性。

从某种意义上说,常客统计学家的陈述没有那么雄心勃勃,但是贝叶斯主义者的大胆陈述可以在很大程度上依靠先验的赋值。在先验很重要且先验存在分歧的情况下,频率论者统计的更为有限的条件陈述可能会站得更稳固。


2

大量研究的目的不是得出最终结论,而只是获得更多证据以逐步将社区的问题意识推向一个方向

当您需要根据可用证据评估决策或结论时,贝叶斯统计量是必不可少的。没有贝叶斯统计,质量控制将是不可能的。贝叶斯统计数据可以使您需要获取一些数据然后对其采取行动的任何过程(机器人技术,机器学习,业务决策)。

但是许多研究人员并未这样做。他们正在进行一些实验,收集一些数据,然后说“数据指向这种方式”,而鉴于到目前为止其他人收集到的所有证据,他们并没有真正担心这是否是最好的结论。科学可能是一个缓慢的过程,诸如“此模型正确的概率为72%”之类的说法。通常为时过早或不必要。

这也适用于简单的数学方法,因为经常性统计数据经常在数学上与贝叶斯统计量的更新步骤相同。换句话说,尽管贝叶斯统计量是(先验模型,证据)→新模型,但是常客主义统计量只是证据,并将其留给其他人来填充其他两个部分。


尽管这篇文章很多都是有趣的,但它包含许多不受支持的观点。请咨询我们的帮助中心,以获取有关本网站的答案。
ub

@whuber我明白了。我添加了一个引文,我已经记不清了,但是其余的我都没有引文,因此,如果似乎不被支持,我可以将其删除。
欧文

5
令您惊讶的是,我对质量控制感到惊讶,因为这似乎是概率论的常识性解释(许多试验中的相对频率)很自然的领域:鉴于工厂运转正常,我们看到这种可能性的可能性有多大(或更多)损坏的小部件?我能否请您详细说明什么使贝叶斯统计对QC特别有用?
马特·克劳斯

@MattKrause假设我们的目标是以低于1%的速度运送缺陷小部件。我们知道工厂以10%的比率生产有缺陷的小部件,并且我们进行了一项测试,该测试的Type-I和Type-II错误率为s和1 /(sqrt(4-1-s ^ 2)),其中s是严格性参数。为了严格起见,我们应该使用什么?
欧文

2
经常性统计不能不能合并连续研究的信息的想法似乎忽略了荟萃分析的领域。
Cliff AB

2

贝叶斯方法的实际执行要比频率论者更实际。“更具技术性”的意思是:1)选择先验,2)在BUGS / JAGS / STAN中对模型进行编程,以及3)考虑采样和收敛。

显然,根据贝叶斯的定义,#1几乎不是可选的。尽管存在一些问题和步骤,但还是可以采用合理的默认值,从而在某种程度上将问题隐藏在用户面前。(尽管这也会引起问题!)

#2是否成为问题取决于您使用的软件。贝叶斯统计方法倾向于比一般统计方法更通用的解决方案,而BUGS,JAGS和STAN之类的工具自然是这种表达。但是,各种软件包中都有贝叶斯函数,它们看起来像典型的常客程序一样工作,因此这并不总是一个问题。(以及最近的解决方案,例如R软件包rstanarmbrms都在弥合这一差距。)不过,使用这些工具与使用新语言编程非常相似。

第3项通常适用,因为现实世界中的大多数贝叶斯应用程序都将使用MCMC采样。(另一方面,基于频繁出现的基于MLE的过程使用的优化可能会收敛到局部最小值或根本不会收敛,我想知道有多少用户应该对此进行检查,而不是进行检查?)

正如我在评论中说的那样,我不确定摆脱先验实际上是否是科学利益。在发布过程中的某些方面和某些方面,它当然很方便,但是我不确定它是否真正有助于更好的科学。(而且,从总体上看,我们所有人都必须意识到我们作为科学家的先验知识,否则,无论使用何种统计方法,我们的研究都会遭受各种偏见。)


关于(3),许多经典的统计模型(即glm's)具有凹对数似然性,因此很少有标准算法在极端情况下失败的情况。对于非凹问题(即NN),尽管确实需要对不适当的收敛(用户通常会理解)给予严重关注,但这些问题(并非偶然)也是经典MCMC算法如果仅针对以下情况运行将严重失败的问题(并非偶然)例如一个人的一生。但是,修复MCMC通常比优化算法花费的时间更少!
悬崖AB

2

从概念上讲:我不知道。我认为贝叶斯统计是最合乎逻辑的思维方式,但我不能证明原因。

常客的好处是,对于大多数初级水平的人来说,它更容易。但是对我来说,这很奇怪。我花了好几年才能真正从理智上弄清楚什么是置信区间。但是,当我开始面对实际情况时,常人主义的想法似乎很简单并且非常相关。

凭经验

如今,我试图重点关注的最重要问题是实用效率:个人工作时间,精度和计算速度。

个人工作时间:对于基本问题,我实际上几乎从未使用过贝叶斯方法:我使用基本的常客工具,并且总是喜欢t检验而不是贝叶斯等效方法,这只会让我头疼。当我想知道自己在tictactoe方面是否比我的女朋友明显好时,我做一个卡方:-)。实际上,即使在作为计算机科学家的严肃工作中,频繁使用的基本工具对于调查问题并避免由于随机产生的错误结论也是非常宝贵的。

精度:在机器学习中,预测比分析更重要,在贝叶斯和频繁主义者之间没有绝对界限。MLE是常客主义的推销者:只是一个估算器。但是正则化MLE(MAP)是部分贝叶斯方法:您找到后验模式,而无需关心其余的后验模式。我不知道为什么要使用正则化的常识性理由。实际上,有时正则化是不可避免的,因为原始MLE估计值过于拟合,以至于0将是更好的预测指标。如果正则化被认为是真正的贝叶斯方法,那么仅凭这一点就可以证明贝叶斯可以用更少的数据学习。

计算速度:频繁使用的方​​法通常在计算上更快且更易于实现。正则化以某种方式提供了一种便宜的方法,可以在其中引入一些贝叶斯。这可能是因为贝叶斯方法仍未达到最佳效果。例如,如今某些LDA实现速度很快。但是他们需要非常艰苦的工作。对于熵估计,最早的高级方法是贝叶斯方法。他们工作得很好,但是很快就发现了频繁使用的方​​法,并且花费了更少的时间...对于计算时间,通常使用频繁使用的方​​法显然更优越。如果您是贝叶斯主义者,那么将常客主义方法视为贝叶斯方法的近似并不是荒谬的。


2
“我不知道为什么要使用正则化的常识性理由”。这很容易; 在反复试验中,它已显示出降低了样本外误差。
Cliff AB

2

一种特定的基于频率论的方法在本质上主导了任何贝叶斯方法的问题类型是M开放情况下的预测问题。

M开是什么意思?

M-open表示生成数据的真实模型不会出现在我们正在考虑的模型集中。例如,如果真正平均是二次的函数关系,但我们只考虑与车型平均的线性函数,我们是在M-开放的情况。换句话说,模型未指定会导致M-open情况。yxx

在大多数情况下,这对于贝叶斯分析是一个巨大的问题。我所了解的几乎所有理论都依赖于正确指定的模型。当然,作为重要的统计学家,我们应该认为我们的模型总是被错误指定。这是一个很大的问题;我们的大多数理论都基于正确的模型,但我们知道从来没有。基本上,我们只是希望我们的模型不太正确。

为什么频频方法能更好地处理此问题?

并非全部。例如,如果我们使用标准的MLE工具来创建标准错误或建立预测间隔,那么我们的状况不会比使用贝叶斯方法更好。

但是,有一种特定的Frequentist工具正是专门用于此目的的:交叉验证。在这里,为了估计我们的模型对新数据的预测能力,我们在拟合模型时只保留了部分数据,并测量了模型对看不见的数据的预测能力。

请注意,此方法与模型缺失指定完全矛盾,它仅提供一种方法供我们估算模型对新数据的预测程度,而无论模型是否“正确”。

我不认为这是太很难说,这确实改变了方法来预测模型是很难从贝叶斯的角度证明(之前应该看到数据之前,代表先验知识,似然函数模型等),以一个从频率论者的角度来看,这很容易证明是正确的(我们选择模型+正则化参数,这些参数经过反复采样会导致最佳的样本误差)。

这彻底改变了预测推理的方式。我认为没有任何统计学家会(或至少应该)认真考虑未使用交叉验证构建或通过交叉验证检查的预测模型(例如,我们可以合理地假设观察结果是独立的,而不是试图考虑)采样偏差等)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.