Answers:
我完全同意Srikant的解释。为了对其进行更多启发式旋转:
古典方法通常假定世界是一种方式(例如,一个参数具有一个特定的真实值),并尝试进行实验,得出的结论(无论该参数的真实值如何)至少在某些最小值下是正确的。可能性。
结果,为了在实验后表达我们的知识的不确定性,频繁使用的方法使用“置信区间”-一系列旨在以最小的概率(例如95%)包含参数真实值的值范围。专家将设计实验和95%的置信区间程序,以便在每100个实验开始完成之前,至少有95个结果置信区间将包含参数的真实值。其他5个可能略有错误,或者可能完全是胡说八道-正式地说,就该方法而言,只要100个推论中的95个是正确的就可以。(当然,我们希望他们稍微犯错,而不是完全胡说八道。)
贝叶斯方法以不同的方式提出问题。贝叶斯方法不是说参数仅具有一个(未知的)真实值,而是说参数的值是固定的,但它是从某种概率分布中选择的,即先验概率分布。(另一种说法是,在进行任何测量之前,贝叶斯方法会针对参数的真实值恰好是多少分配一个概率分布,他们称之为置信状态。)估计卡车的尺寸,如果我们从DMV知道卡车尺寸的总体分布),或者是凭空得出的假设。贝叶斯推理更简单-我们收集一些数据,然后计算将数据赋予参数的不同值的概率。这种新的概率分布称为“后验概率”或简称为“后验概率”。贝叶斯方法可以通过在后验概率分布上给出一系列包含95%概率的值来总结其不确定性,这称为“ 95%可信区间”。
贝叶斯游击队可能会这样批评经常性的置信区间:“那么,如果100个实验中有95个产生的置信区间包括真实值,那该怎么办?我不在乎99个我不会做的实验;我在乎这个实验我不这样做。您的规则允许100个中的5个完全是废话[负值,不可能的值],只要其他95个都是正确的;那太可笑了。“
一个常客主义者可能会这样批评贝叶斯信誉区间:“那么,如果将后验概率的95%包含在该范围内怎么办?如果真实值是0.37,该怎么办?如果是,那么您的方法就运行了开始完成,将有75%的时间是错误的。您的回答是:“哦,那很好,因为根据以前的经验,该值非常罕见,为0.37,”也许是这样,但是我想要一种方法适用于该参数的任何可能值。我不在乎它没有的99个值;我在乎它确实有的一个真实值。呵呵,顺便说一句,您的答案是正确的如果先验是正确的话,如果只是因为感觉正确而将其从空中拉出来,那您就可以走了。”
从某种意义上说,这两个游击队员对彼此方法的批评都是正确的,但我敦促您从数学角度考虑这种区别-正如Srikant解释的那样。
这是该演讲的扩展示例,它在一个离散示例中精确显示了差异。
当我还是个孩子的时候,我妈妈偶尔会点一罐邮寄的巧克力曲奇,给我一个惊喜。送货公司储存了四种不同的饼干罐-A型,B型,C型和D型,它们都在同一辆卡车上,因此您永远不确定会得到哪种类型。每个罐子恰好有100个曲奇,但是区别不同曲奇罐的特征是每个曲奇各自的巧克力碎片分布。如果您进入一个罐子并随机均匀地取出一个cookie,这些就是您获得的筹码数量的概率分布:
例如,一个A型曲奇罐中有70个曲奇,每个曲奇有两个筹码,没有曲奇有四个筹码或更多!D型曲奇罐有70个曲奇,每个曲奇一个。注意每个垂直列如何是概率质量函数-假设jar = A或B或C或D且每个列的总和为100,则您将获得的筹码数量的条件概率。
送货员放下我的新饼干罐后,我曾经很喜欢玩游戏。我会从罐子中随机取出一个饼干,计算饼干上的筹码,然后尝试表达我的不确定性(在70%的水平上)。因此,jar的标识(A,B,C或D)是所估计参数的值。芯片数(0、1、2、3或4)是结果或观察值或样本。
最初,我是使用70%置信区间的常客来玩这个游戏的。这样的间隔需要确保无论参数的真实值如何,这意味着无论我得到哪个cookie jar,该间隔都将以至少70%的概率覆盖该真实值。
当然,间隔是将结果(一行)与参数值集(一组列)相关联的函数。但是要构建置信区间并确保70%的覆盖率,我们需要“垂直”工作-依次查看每一列,并确保覆盖70%的概率质量函数,以便在70%的时间内列的身份将成为结果间隔的一部分。请记住,构成pmf的是垂直列
因此,完成该过程之后,我得到了以下间隔:
例如,如果我抽取的cookie上的筹码数量为1,则我的置信区间为{B,C,D}。如果数字为4,则我的置信区间为{B,C}。请注意,由于每列的总和等于或大于70%,所以无论我们真正位于哪一列中(无论送货员投下哪个罐子),此过程产生的间隔都将包含正确罐子的概率至少为70%。
还要注意,我在构造时间间隔时遵循的过程具有一定的酌处权。在B型列中,我可以很容易地确保包括B的间隔将是0、1、2、3,而不是1、2、3、4。这将导致B型广口瓶(12 + 19 + 24 + 20)的覆盖率达到75%,但仍满足70%的下限。
我的姐姐贝叶斯(Bayesia)认为这种方法很疯狂。她说:“您必须将送货员视为系统的一部分。” “让我们把罐子的身份本身当作一个随机变量,让我们假设送货员在罐子中统一选择-这意味着他把这四个罐子都装在卡车上,当他到我们家时,他随机挑选了一个,统一概率。”
她说:“有了这个假设,现在让我们来看整个事件的联合概率,即罐子的类型和从第一个cookie抽取的筹码数量。”
请注意,整个表现在是概率质量函数-表示整个表的总和为100%。
我说,“好吧,你要去哪儿?”
贝叶斯说:“考虑到罐子,您一直在研究筹码数量的条件概率。” “那完全不对!您真正关心的是,根据Cookie上的筹码数量,它是哪个罐子的条件概率!您70%的时间间隔应该只包括列表罐子,总共有70%的可能性真正的罐子。难道不是更简单,更直观吗?”
“当然,但是我们如何计算呢?” 我问。
“比方说,我们知道您有3个筹码。那么我们可以忽略表中的所有其他行,只需将该行视为概率质量函数即可。我们需要按比例扩大概率,因此每一行的总和为100不过。” 她做过:
“请注意,现在每一行是pmf,总和为100%。我们已经从您开始时就将条件概率翻转了-现在,考虑到筹码数量,这是该人掉下某个罐子的概率第一个Cookie。”
“有趣,”我说。“所以现在我们只需要在每一行中圈出足够多的罐子,以达到70%的概率?” 我们做到了,设定了以下可信度间隔:
每个时间间隔都包含一组罐子,后罐子总计为真正罐子的概率为70%。
“好,等等。”我说。“我不敢相信。让我们将两种间隔并排比较,并比较它们的覆盖范围,并假设送货员以同等的概率和信誉来挑选每种罐子。”
他们来了:
置信区间:
可信区间:
“看看您的置信区间有多疯狂?” 贝叶斯说。“当您用零个筹码绘制一个cookie时,您甚至没有一个明智的答案!您只是说这是空的间隔。但这显然是错误的-它必须是四种类型的罐子中的一种。您自己,在一天结束时说出一个间隔,当您知道该间隔是错误的时候;同样,当您用3个筹码拉一个cookie时,您的间隔只在41%的时间内是正确的,这就是“ 70%”的置信度间隔是胡扯。”
“好吧,嘿。”我回答。“ 70%的时间都是正确的,无论送货员放下哪个广口瓶。这远远超过了您所说的可信度间隔。如果广口瓶是B型呢?那么80%的时间间隔是错误的,并且只有20%的时间正确!”
我继续说:“这似乎是一个大问题,因为您的错误将与罐子的类型相关。如果您派出100个'贝叶斯'机器人来评估您拥有的罐子类型,那么每个机器人都会采样一个cookie,您告诉我,在B型日子里,您会期望80个机器人得到错误的答案,每个机器人对错误结论的相信程度都超过73%!这很麻烦,尤其是如果您希望大多数机器人都同意正确答案。”
我说:“此外,我们必须做出这样的假设,即送货员的行为统一,并随机选择每种罐子。” “那是从哪里来的?如果错了怎么办?您没有与他交谈;您没有采访过他。但是,您关于后验概率的所有陈述都基于关于他的行为的陈述。我不必做任何这样的假设,即使在最坏的情况下,我的间隔也符合其标准。”
贝叶斯说:“的确,我的信誉间隔确实在B型广口瓶上表现不佳。” “但是那又怎样呢?B型罐子只发生25%的时间。我对A,C和D型罐子的了解很好,这抵消了这种情况。而且我从不发表废话。”
我说:“的确,当我绘制零筹码的cookie时,我的置信区间确实表现不佳。” “但是那又怎么样呢?在最坏的情况下(D型罐),无芯片Cookie最多会发生27%的时间。对于这种结果,我可以胡说八道,因为没有罐会导致错误答案超过30 % 的时间。”
我说:“专栏内容很重要。”
贝叶斯说:“这一行很重要。”
我说:“我看到我们陷入僵局。” “我们在做出的数学陈述中都是正确的,但是我们对量化不确定性的适当方法持不同意见。”
“是的,”我姐姐说。“想要饼干吗?”
"What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time"
,他们只是在给出他们组成的示例数字。在这种特定情况下,他们将指的是某个先验分布,该分布的值非常低,为0.37,其中大部分概率密度在其他位置。并且我们假设当参数的真实值恰好为0.37时,示例分布的性能将非常差,类似于当jar恰好是B型时,贝叶斯的可信度区间严重失败。
我的理解如下:
背景
假设您有一些数据并且您正在尝试估计。您有一个数据生成过程,该过程描述了如何在上生成。换句话说,您知道的分布(例如。
推理问题
您的推论问题是:给定观测数据,哪些值是合理的?
置信区间
置信区间是上述问题的经典答案。在这种方法中,您假设存在真实固定值。在此假设下,您可以使用数据得出的估算值(例如)。有了估算值后,您便想评估与估算值有关的真实价值。
注意,在这种方法下,真实值不是随机变量。这是一个固定但未知的数量。相反,您的估计是随机变量,因为它取决于从数据生成过程中生成的数据。因此,您意识到每次重复学习都会得到不同的估计。
通过以上理解,可以得出以下方法来评估与您的估计有关的真实参数。使用以下属性定义一个间隔,即:
如上构造的间隔称为置信区间。由于真实值是未知的但是固定的,因此真实值在区间内或区间外。置信区间则是关于我们获得的区间实际上具有真实参数值的可能性的陈述。因此,概率陈述是关于间隔(即该间隔是否具有真实值的机会)而不是真实参数值的位置。
在这种范式中,谈论真实值小于或大于某个值的概率是没有意义的,因为真实值不是随机变量。
可信区间
与经典方法相反,在贝叶斯方法中,我们假设真实值是一个随机变量。因此,我们通过在真实参数向量上施加先验分布(例如)来捕获真实参数值的不确定性。
使用贝叶斯定理,我们通过混合先验和我们拥有的数据来构造参数向量的后验分布(简称后验是)。
然后,我们使用后验分布(例如,使用后验分布的均值)得出一个点估计。但是,由于在这种范式下,真实参数向量是随机变量,因此我们也想知道点估计中不确定性的程度。因此,我们构造一个间隔,使其满足以下条件:
以上是一个可靠的间隔。
摘要
可靠的间隔捕获了我们当前在参数值位置上的不确定性,因此可以解释为关于参数的概率陈述。
相反,置信区间捕获了我们获得的区间的不确定性(即,是否包含真实值)。因此,它们不能被解释为关于真实参数值的概率陈述。
我在一个基本点上不同意Srikant的回答。Srikant表示:
“推论问题:您的推论问题是:在观察到的数据x下,θ的哪个值是合理的?”
实际上,这是贝叶斯推理问题。在贝叶斯统计中,我们试图计算P(θ| x),即给定观测数据(样本)的参数值的概率。可信区间是θ的间隔,在给出该问题背后的多个假设的情况下,它有95%的机会(或其他机会)包含θ的真实值。
频率推断问题是这样的:
给定假设的θ值,观测数据x是否合理?
在频率统计中,我们试图计算P(x |θ),即给定假设的参数值,观察数据(样本)的概率。置信区间(可能用词不当)解释为:如果多次重复生成随机样本x的实验,则由这些随机样本构成的此类区间的95%(或其他)将包含参数的真实值。
头乱了吗?这就是常客统计学的问题,而贝叶斯统计学的主要目的就是这样做。
正如Sikrant所指出的,P(θ| x)和P(x |θ)如下相关:
P(θ| x)= P(θ)P(x |θ)
其中P(θ)是我们的先验概率;P(x |θ)是以该先验为条件的数据的概率,P(θ| x)是后验的概率。先前的P(θ)本质上是主观的,但这是关于宇宙的知识的价格-从非常深刻的意义上讲。
Sikrant和Keith答案的其他部分都很出色。
之前提供的答案非常有用且详尽。这是我的$ 0.25。
置信区间(CI)是基于概率的经典定义(也称为“频率定义”)的概念,该概率类似于比例,并且基于Kolmogrov(和其他)的公理系统。
可信区间(最高后密度,HPD)可以根据Wald和de Finetti的著作(并在其他人的著作中得到很多介绍),被认为源于决策理论。
由于从事此工作的人们在给出例子以及贝叶斯和常识性案例中的假设差异方面做得很出色,所以我只强调一些重要的观点。
CI的依据是,必须根据可见实验的所有可能重复进行推理,而不仅仅是基于观察到的数据,因为HPD完全基于观察到的数据(并遵守我们先前的假设)。
通常,CI与HPD是一致的(由于其在决策理论中的根源)是不一致的(将在后面进行解释)。连贯性(正如我要向我的祖母解释的那样)的意思是:给定一个关于参数值的下注问题,如果古典统计学家(常客)对CI押注,贝叶斯对HPD押注,则常客输掉赔率(不包括小问题)当HPD = CI时)。简而言之,如果您想将实验结果总结为基于数据的概率,则该概率就是后验概率(基于先验概率)。有一个定理(参见Heath和Sudderth,《统计年鉴》,1978年)(大致)指出:当且仅当以贝叶斯方式获得时,基于数据向分配概率并不能确定失败者。
由于CI不以观察到的数据为条件(也称为“条件性原理” CP),因此可能存在矛盾的例子。Fisher是CP的大力支持者,并且在未遵循CP的情况下(例如CI)也发现了许多矛盾的例子。这就是为什么他使用p值进行推理而不是CI的原因。在他看来,p值基于观察到的数据(关于p值可以说很多,但这并不是本文的重点)。两个非常著名的自相矛盾的例子是:(4和5)
考克斯(Cox)的示例(《数学统计年鉴》,1958年): (iid)为,我们想要估计。不是固定的,而是通过抛硬币来选择的。如果掷硬币导致H,则选择2,否则选择1000。“常识”估计-样本均值是无偏估计,方差为。当时,我们用什么作为样本均值的方差?用样本均值估算器的方差作为(条件方差)代替估算器的实际方差是巨大的(更好)是明智的!()。这是当时方差为时CP的简单说明。单独对和不重要,也没有任何信息(即对它们而言是辅助的),但是鉴于其价值,您对“数据质量”了解很多。这直接与CI有关,因为它们涉及不应以为条件的方差,即我们将最终使用较大的方差,因此过于保守。
韦尔奇(Welch)的示例:此示例适用于任何,但为简单起见,我们将为。 (iid),属于实线。这意味着(iid)。(请注意,这不是统计数据)的分布与无关。我们可以选择 st,表示是的99%CI。此CI的解释是:如果我们重复采样,我们将获得不同的并且它的99%(至少)倍将包含真实的,但对于GIVEN数据却是(房间里的大象),我们不知道CI包含真实的可能性。现在,考虑以下数据:和,作为,我们肯定知道间隔包含(一种可能的批评,,但我们可以用数学方法处理它,我将不再讨论)。这个例子也很好地说明了一致性的概念。如果您是一位经典的统计学家,那么您肯定会押注99%CI,而无需考虑的值。(假设您对您的职业是真实的)。但是,仅当的值时,贝叶斯才会下注于CI接近1。如果我们以,间隔是连贯的,玩家将不再是确定的输家(类似于Heath和Sudderth的定理)。
Fisher针对此类问题提出了建议-使用CP。对于Welch的示例,Fisher建议使用条件。如我们所见,是辅助,但它提供有关theta的信息。如果是SMALL,则数据中没有太多有关的信息。如果是LARGE,则数据中有很多有关的信息。Fisher将对辅助统计量进行条件调整的策略扩展到称为基准推断的一般理论(也称为他的最大失败,请参阅Zabell,Stat。Sci。,1992年),但由于缺乏通用性和灵活性,它并未流行。费舍尔试图找到一种不同于古典统计(内曼学派)和贝叶斯学派的方法(因此,萨维奇著名的格言:“费舍尔想制作贝叶斯煎蛋(即使用CP)而不破坏贝叶斯蛋”) 。民俗学说(没有证据)说:费舍尔在辩论中攻击Neyman(针对I型和II型错误和CI),称他为质量控制员,而不是科学家,因为Neyman的方法并不以观察到的数据为条件,而是在所有可能的重复。
除了CP之外,统计人员还希望使用自满原则(SP)。但是SP和CP一起暗示了似然原理(LP)(参见Birnbaum,JASA,1962年),即给定CP和SP,必须忽略样本空间,而仅看似函数。因此,我们只需要查看给定的数据,而不需要查看整个样本空间(查看整个样本空间的方式类似于重复采样)。这就导致了诸如“观察到的费舍尔信息”(参见Efron和Hinkley,AS,1978年)之类的概念,该概念从频繁主义者的角度衡量有关数据的信息。数据中的信息量是一个贝叶斯概念(因此与HPD有关),而不是CI。
Kiefer在1970年代后期对CI进行了一些基础性的工作,但是他的扩展并未流行。伯杰(Berger)是一个很好的参考资料来源(“费舍尔,内曼和杰弗里斯能否就假设检验达成共识”,Stat Sci,2003年)。
(如Srikant等人所指出的),
配置项不能解释为概率,也不能告诉已知参数GIVEN所观察到的数据。CI是关于重复实验的陈述。
HPD是基于未知参数的后验分布的概率区间,并基于给定数据具有基于概率的解释。
频繁属性(重复采样)属性是理想属性,HPD(具有适当的优先级)和CI都具有它们。HPD还会在回答有关未知参数的问题时以给定数据为条件
(客观而非主观)贝叶斯主义者同意经典统计学家的观点,即该参数只有一个TRUE值。但是,它们在推断此真实参数的方式上都不同。
贝叶斯HPD为我们提供了一种很好的数据条件,但是,如果他们不同意CI的常客属性,它们就没有太大用处(类比:使用HPD(具有某些先验经验)却没有良好的常客属性的人必将受到约束。像木匠那样注定要死,他只在乎锤子,却忘记了螺丝刀)
最后,我见过这个话题的人(乔里斯博士的评论:“ ...所涉及的假设暗示着先验的分散,即完全缺乏对真实参数的知识。”)谈论的是缺乏对真实参数的知识。等同于使用扩散先验。我不知道我是否可以同意这一说法(基思博士同意我的观点)。例如,在基本线性模型的情况下,可以通过使用统一先验(某些人称为“漫射”)获得某些分布,但这并不意味着可以将统一分布视为低信息先验。通常,NON-INFORMATIVE(Objective)优先级并不意味着它关于参数的信息很少。
注意:其中许多观点都是基于一位著名贝叶斯主义者的演讲。我仍然是一名学生,可能以某种方式误解了他。请事先接受我的道歉。
参与一些哲学总是很有趣。我非常喜欢基思的回应,但是我要说的是,他是“健忘的贝叶斯先生”。只有在每次试验都应用相同的概率分布,并且拒绝事先更新他(她)的情况下,类型B和类型C的不良覆盖才会出现。
您可以很清楚地看到这一点,因为A型和D型罐子可以说是“确定的预测”(分别针对0-1和2-3个筹码),而B型和C型罐子基本上给出了均匀的筹码分布。因此,在重复使用固定的“真罐子”(或者如果我们取样另一个饼干)进行实验时,芯片的均匀分布将为B型或C型罐子提供证据。
从“实际”的角度来看,类型B和C需要大量样本才能区分它们。两种分布之间的KL散度为。这是一个等同于两个正态分布的方差,均具有方差且均值。因此,我们不可能期望能够基于一个样本进行区分(对于正常情况,我们需要大约320个样本大小才能在5%的显着性水平上检测到这种差异)。因此,我们可以合理地将B型和C型折叠在一起,直到有足够大的样本为止。
现在,这些可靠的间隔会怎样?实际上,我们现在已经100%覆盖了“ B或C”!频繁间隔时间如何?由于所有间隔都包含B和C或都不包含,因此覆盖率没有变化,因此它仍然受到Keith响应的批评-观察到3和0筹码分别为59%和0%。
但是,这里要务实。如果您针对某个功能优化了某些功能,则不能期望它对另一功能有效。但是,频繁者间隔和贝叶斯间隔确实确实达到了期望的可信度/可信度水平。我们有因此,常客具有适当的平均信誉度。我们也有贝叶斯具有适当的平均覆盖率。
我要强调的另一点是,贝叶斯并不是通过分配概率分布来说“参数是随机的”。对于贝叶斯(好吧,至少对我而言),概率分布是对该参数已知信息的描述。在贝叶斯理论中,“随机性”的概念并不是真正存在的,只有“知道”和“不知道”的概念。“已知”进入条件,而“未知”则是我们计算的概率(如果感兴趣),并在产生麻烦时边缘化。因此,一个可靠的时间间隔描述了有关固定参数的已知信息,并取其平均值。因此,如果我们担任包装饼干罐并知道它是A型的人的职位,不管样本是多少,无论采集多少样本,它们的可信区间仅为[A]。他们将是100%准确!
置信区间基于不同可能样本中存在的“随机性”或变化。因此,它们考虑的唯一变化是样本中的变化。因此,对于装满饼干罐的人来说,置信区间是不变的,而新的饼干罐是A型。因此,如果从A型罐子中抽出1片饼干,那么常客会以70%的信心断言该类型是即使他们知道罐子是A型,也不是A!(如果他们保持自己的意识形态而忽略了常识)。要看到这种情况,请注意在这种情况下没有任何东西可以改变采样分布-我们只是以具有基于“非数据”的有关参数的信息来对待另一个人的观点。
置信区间仅在数据更改或模型/采样分布更改时才会更改。如果考虑其他相关信息,则信誉间隔可以更改。
请注意,这种疯狂的行为肯定不是置信区间支持者实际上会采取的行动;但确实显示了在特定情况下该方法所依据的理念上的弱点。当您仅对数据集中包含的信息不太了解某个参数时,置信区间将发挥最大作用。而且,除非存在无法置信区间的先验信息,或者很难找到足够的辅助统计数据,否则可信度区间在置信区间上将不会有太大改善。
据我了解:可信区间是对感兴趣的统计值的范围的一种说明,考虑到我们实际观察到的特定数据样本,这些范围仍然是合理的。置信区间是当多次重复实验时每次真实值位于置信区间中的频率的陈述,每次重复实验都使用来自相同基础总体的不同数据样本。
通常,我们要回答的问题是“统计量的哪些值与观察到的数据一致”,可信区间给出了该问题的直接答案-统计量的真实值位于95%可信区间内,概率为95 %。置信区间不能直接回答这个问题。断言该统计信息的真实值位于95%置信区间内的概率为95%(除非它恰好与可信区间一致)是不正确的。但是,这是对常识性置信区间的一种非常常见的误解,因为它会直接回答问题。
我在另一个问题中讨论的Jayne's论文提供了一个很好的示例(示例5),它构建了一个完全正确的置信区间,其中基于其的特定数据样本排除了任何可能产生真实价值的可能性统计数据位于95%的置信区间内!仅当置信区间被错误地解释为基于我们观察到的特定样本的统计的合理值的陈述时,这才是问题。
归根结底,这是“课程马”的问题,哪个时间间隔最好取决于您要回答的问题-只需选择直接回答该问题的方法即可。
我怀疑置信区间在分析[预定的]可重复实验时会更有用(因为这只是置信区间的基础),而可信区间在分析观测数据时会更好,但这只是一种意见(我使用两种区间我自己的工作,但都不会描述自己是这方面的专家)。
我发现许多关于置信区间和可信集的解释都是错误的。例如,置信区间不能以这种格式。如果您仔细观察“常客”和贝叶斯推论中的“分布”,您会看到“常客”对数据的抽样分布进行研究,而贝叶斯对参数的(后)分布进行研究。它们是在完全不同的样本空间和Sigma代数上定义的。
因此,可以说:“如果您重复多次实验,则95%CI中的大约95%将覆盖真实参数”。尽管在贝叶斯理论中您可以说“统计的真实价值在于95%可信区间内,概率为95%”,但是,这95%的概率(在贝叶斯理论中)本身仅是估计值。(请记住,它基于给定特定数据的条件分布,而不是采样分布)。由于随机样本,此估算器应带有随机误差。
贝叶斯尝试避免I型错误问题。贝叶斯总是说在贝叶斯中谈论I型错误是没有意义的。这并非完全正确。统计人员总是想衡量“您的数据可以建议您做出决定,而总体上可以建议您做出决定”的可能性或错误。这是贝叶斯无法回答的(此处省略了详细信息)。不幸的是,这可能是统计学家应该回答的最重要的事情。统计人员不仅仅提出决定。统计人员还应该能够解决该决定可能出错的程度。
我必须发明下表和术语来解释这一概念。希望这可以帮助解释置信区间和可信集的区别。
请注意,后验分布是,其中是从前一个。在常客中,采样分布为。的采样分布为。下标是样本大小。请不要使用符号来表示频繁出现的采样分布。您可以谈论和随机数据,但不能谈论随机数据。P(θ0|d一吨一Ñ)
'???????' 解释了为什么我们无法评估贝叶斯类型I错误(或类似的错误)。
还请注意,在某些情况下,可以使用可信集来近似置信区间。但是,这仅仅是数学上的近似。解释应该与常客相提并论。在这种情况下,贝叶斯解释不再起作用。
Thylacoleo表示法不是常客。这仍然是贝叶斯。当谈到常客时,这种表示法在测度理论中引起了一个基本问题。
我同意Dikran Marsupial的结论。如果您是FDA审查员,您总是想知道您批准药物申请但该药物实际上无效的可能性。这是贝叶斯无法提供的答案,至少在经典/典型贝叶斯中。
始终如一的信心和可信的地区。 http://dx.doi.org/10.6084/m9.figshare.1528163 ,代码位于 http://dx.doi.org/10.6084/m9.figshare.1528187
提供用于集合选择的可信区间和置信区间的描述,以及用于给定似然函数和一些观测数据的通用R代码。此外,它提出了一个测试统计数据,该统计数据给出了彼此一致的最佳大小的可信区间和置信区间。
简而言之,避免使用公式。贝叶斯可信区间基于给定数据的参数的概率。它将具有高概率的参数收集到可信组/间隔中。95%可信区间包含给定数据的参数合起来具有0.95的概率。
频繁者置信区间是基于给定一些参数的数据的概率。对于每个(可能无限多个)参数,它首先生成给定参数可能会观察到的数据集。然后针对每个参数检查所选的高概率数据是否包含观察到的数据。如果高概率数据包含观察到的数据,则将相应的参数添加到置信区间。因此,置信区间是参数的集合,因此我们不能排除参数已生成数据的可能性。这给出了这样一个规则,即如果反复应用于类似问题,则95%的置信区间将在95%的情况下包含真实参数值。
这更多是评论,但时间太长。在以下论文中:http : //www.stat.uchicago.edu/~lekheng/courses/191f09/mumford-AMS.pdf Mumford有以下有趣的评论:
尽管所有这些真正令人兴奋的用途都用于统计,但由RA Fisher爵士领导的大多数统计人员本身都在背后绑住了手,坚持认为统计只能在完全可复制的情况下使用,然后只能使用经验数据。这就是所谓的“频率派”派别,与贝叶斯派别战斗,后者认为可以使用先验,并且大大扩展了统计推断的使用范围。这种方法否认统计推断可以与真实的想法有关,因为现实生活中的情况总是埋在上下文变量中并且无法重复。幸运的是,贝菲斯学派并没有完全死掉,由DeFinetti,ET Jaynes和其他人继续学习。