为什么95%的置信区间(CI)并不意味着95%的机会包含平均值?


228

似乎在这里通过各种相关问题,我们达成共识,即所谓的“ 95%置信区间”中的“ 95%”部分是指这样的事实:如果我们要多次精确地重复采样和CI计算过程, ,因此计算得出的95%的配置项将包含总体平均值。这也似乎是共识,这一定义确实允许人们从单个95%CI得出结论,即平均值有95%的概率落在CI内。但是,我不理解前者在暗示许多95%的配置项包含总体均值的情况下并不暗示后者,就我们的不确定性而言(关于我们实际计算的配置项是否包含总体)是不是)强迫我们使用想象中的案例的基准利率(95%)作为我们对实际案例包含CI的概率的估计?

我见过一些文章按照“实际计算的CI包含总体均值或不包含总体均值,因此其概率为1或0”的论点进行争论,但这似乎暗示了对概率依赖性的奇怪定义在未知状态下(例如,一个朋友扔公平的硬币,隐藏结果,我被禁止说有50%的可能性是正面的)。

我当然错了,但是我看不出逻辑哪里出错了...


4
用“机会”一词,您是指技术上的频率论者意义上的“概率”,还是主观似然性的贝叶斯意义上的“概率”?在常识意义上,只有随机实验的事件才有概率。查看三个给定的(固定的)数字(真实平均值,计算出的CI界限)以确定其顺序(CI中包含的真实平均值)不是随机实验。这也是为什么“实际计算的CI包含总体平均值或不包含总体平均值,因此其概率为1或0”的概率部分也是错误的。在这种情况下,频繁概率模型并不适用。
caracal 2012年

11
这取决于您如何对待理论平均值。如果它是随机变量,则可以说它落入某个间隔的概率。如果它是常数,则不能。那是最简单的解释,它亲自为我解决了这个问题。
mpiktas 2012年

2
顺便说一句,我从Thaddeus Tarpey那里碰到了这个话题:所有模型都是正确的…大多数模型都没有用。他讨论了95%置信区间包含(p。81 ff。)的概率的问题?μ
chl 2012年

3
@Nesp:我不认为“ CI包含(固定)参数的(后验)概率”语句“概率为零或一”没有任何问题。(这甚至不真正依赖于概率的任何常识性解释!)。它还不依赖“未知状态”。这种表述恰好是指根据特定样本向CI交付CI的情况。这是一个简单的数学练习,可以证明任何此类概率都是微不足道的,即,取。{0,1}
主教

3
@MikeLawrence,三年后,您对95%置信区间的定义感到满意吗? ”。像您在2012年一样,我正在努力查看这并不意味着95%的置信区间有95%的概率包含均值。我很想知道自您提出这个问题以来,您对置信区间的理解是如何发展的。
卢西亚诺

Answers:


107

问题的一部分是,概率论的频繁性定义不允许将非平凡的概率应用于特定实验的结果,而只能应用于一些虚构的实验,可以将该特定实验视为样本。CI的定义令人困惑,因为它是关于这种(通常)虚拟实验的陈述,而不是关于手头实例中收集的特定数据的陈述。因此,问题的一部分是概率的定义之一:真值位于概率为95%的特定区间内的想法与惯常论者的框架不一致。

问题的另一个方面是,对常客信心的计算并未使用特定样本中包含的所有信息,这些信息与限制统计的真实值有关。我的问题“是否有任何例子表明贝叶斯可信区间明显不如频繁的置信区间”讨论了Edwin Jaynes的论文,其中有一些非常好的例子,这些例子确实突出了置信区间和可信区间之间的差异。与该讨论特别相关的是示例5,该示例讨论了可信度和置信区间之间的差异,该区间用于估计截断的指数分布的参数(对于工业质量控制中的问题)。在他给出的示例中,样本中有足够的信息可以确定参数的真实值在正确构造的90%置信区间内没有位置!

这可能使某些人感到震惊,但是产生此结果的原因是,置信区间和可信区间是对两种不同问题的答案,这是从两种不同的概率解释得出的。

置信区间是答案的要求:“给我,将括在参数的真值间隔被重复很多次实验的实例%。” 可靠的间隔是对请求的回答:“给定一个间隔,在给定我实际观察到的特定样本的情况下,用概率将真实值括起来 ”为了能够回答后一个请求,我们必须首先采用(a )数据生成过程的新概念,或(b)概率本身定义的不同概念。 p100pp

任何特定的95%置信区间并不意味着95%的机会包含均值的主要原因是,由于置信区间是对另一个问题的答案,因此,当两个问题的答案恰好发生时,这才是正确的答案。有相同的数值解。

简而言之,可信区间和置信区间从不同角度回答了不同的问题。两者都很有用,但是您需要为实际要问的问题选择正确的时间间隔。如果要允许一个区间来解释包含真实值的95%(后验)概率,那么请选择一个可信区间(以及随之而来的概率概念化),而不是置信区间。您不应该做的就是在解释中采用与分析中不同的概率定义。

感谢@cardinal的完善!

这是一个具体的例子,摘自David MaKay的出色著作《信息理论,推理和学习算法》(第464页):

令感兴趣的参数为和数据,独立于以下分布绘制的一对点和:d X 1 X 2θDx1x2

p(x|θ)={1/2x=θ,1/2x=θ+1,0otherwise

如果是,那么我们期望看到,,和的数据集都具有相等的概率。考虑置信区间39 39 39 39 40 40 39 40 40 1 / 4θ39(39,39)(39,40)(40,39)(40,40)1/4

[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)]

显然,这是一个有效的75%置信区间,因为如果您对数据进行重新采样,那么很多次这种方式构造的置信区间将包含75%的真实值。D=(x1,x2)

现在考虑数据。在这种情况下,常客的75%置信区间为。但是,假设生成过程的模型正确,在这种情况下可能是28或29,并且我们没有理由假设29比28更有可能,因此后验概率为。因此,在这种情况下,由于我们可以从该特定样本推断出值,因此,频繁主义者的置信区间显然不是75%的可信区间,因为它只有50%的概率包含的真实值。[ 29 29 ] θ p θ = 28 | d = p θ = 29 | d = 1 / 2 θ θD=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2θθ

是的,这是一个人为的示例,但是如果置信区间和可信区间没有不同,那么在人为的示例中它们仍然是相同的。

请注意,主要区别在于置信区间是对多次重复实验会发生的情况的说明,可信区间是对可以从此特定样本推断出的结果的说明。


8
置信区间是对以下问题的答案:“如果实验重复多次,请给我一个区间,该区间将以概率p括住统计的真实值”。可信区间是对以下问题的答案:“给我一个区间,该区间用概率p包围真实值”。首先,关于概率论的频率论解释的陈述尚待改进。也许,问题出在该句子中使用概率一词。其次,我发现可信的“定义”间隔太简单了……
主教

7
...并且考虑到您对CI的描述,这会产生误导。与此相关的是,结束语有一个相同的问题:如果您希望一个区间在95%的时间内包含真实值,则选择一个可信区间,而不是一个置信区间。“ 95%的时间包含真实值”的口语用法有些不精确,给人留下了错误的印象。确实,我可以提出令人信服的论点(我相信),这种措辞接近于CI的定义。
红衣主教

11
要求:对此答案的反对者在评论中表达他们的意见/理由将很有帮助。尽管这个问题比大多数问题更有可能引起广泛的讨论,但向回答者提供建设性反馈仍然很有用;这是帮助改善网站整体内容的最简单方法之一。干杯。
主教

9
迪克兰,是的,我同意。那是我试图在编辑中多画些内容的一部分。激进的常客(我当然不是)可能会挑衅地说:“ CI是保守的,因为我事先设计了间隔,因此无论我碰巧观察到什么特定数据,该参数都将在间隔95%中捕获说“天哪,有人刚把一些数据丢进我的大腿。我从该数据构造的时间间隔包含真实参数的可能性是多少?”,这会产生一个可靠的间隔。”“在后一种情况下,这有点不公平。 。
红衣主教

2
迪克兰,我们每个人都有不同的背景,这有助于加深我们的理解。关于概率和相关概念,也许我最喜欢与之互动的最杰出的思想家没有正式的统计数据或(数学)概率背景;他是一名工程师。
红衣主教

28

在常客统计中,从长远来看,概率与事件有关。完成后,它们仅不适用于单个事件。实验的进行和CI的计算就是这样一个事件。

您想将其与隐藏的硬币变成正面的概率进行比较,但您不能。您可以将它与非常接近的事物联系起来。如果您的游戏有一个规则,您必须在“正面”翻转之后声明,那么从长远来看,您正确的可能性为50%,这是相似的。

当您进行实验并收集数据时,您会得到与硬币实际翻转类似的东西。实验过程就像硬币翻转的过程一样,它会产生μμ或者它不只是硬币是正面的,或者不是。一旦翻转硬币,无论您是否看到它,都不可能是正面,不是正面就是正面。现在假设您是负责人。这就是计算CI的方法。因为您永远都无法透露硬币(您对实验的类比将消失)。您是对还是错,就是这样。它的当前状态与它在下一个翻转中出现的可能性有任何关系,还是我可以预测它是什么?不会。制造磁头的过程产生它们的可能性为0.5,但这并不意味着已经存在的磁头的可能性为0.5。一旦计算出CI,就不可能捕获μ,它要么起作用,要么不起作用—您已经掷硬币了。

好吧,我想我已经受够了折磨。关键点是您的类比确实被误导了。您永远都无法透露硬币;您只能根据有关硬币(实验)的假设来称呼正面或反面。之后,您可能想对自己的头或尾正确打赌,但您永远都无法下注。另外,它是CI过程的重要组成部分,您要说明import的值在间隔中。如果没有,则您没有配置项(或在指定的百分比下至少没有一个配置项)。

可能使CI令人困惑的是它的名字。这是一个包含或不包含的值的范围。我们认为它们包含但其可能性与开发它的过程不同。95%CI名称中的95%部分就是该过程。您可以计算出某个范围,此范围之后您相信它在某个概率水平上包含,但这是一种不同的计算方式,而不是CI。μ μμμμ

这是更好地觉得这个名字95%CI为一个指定的种类范围,你认为振振有词包含的值的测量,并从合理性分开95%。我们可以将其称为Jennifer CI,而99%CI是Wendy CI。那实际上可能更好。然后,之后我们可以说我们相信可能在值的范围内,没有人会说我们捕获可能性是Wendy 。如果您想要一个不同的名称,我想您也应该可以摆脱CI的“信心”部分(但这是一个间隔)。μ μμμμ


公平地说,此回复似乎还可以,但是我很乐意看到它的正式(数学)描述。正式是指将其转换为事件。我将解释我的观点:我记得刚开始时值感到非常困惑。我在某处读到“ 假设零假设为真,则值实际计算出的是数据的概率”。当我将其与贝叶斯定理联系起来时,所有这些都变得非常有意义,现在我可以向所有人解释它了(即,一个人计算)。不过,我(讽刺)不是自信...ppp p D | H 0H0p(D|H0)
内斯托尔

...(续),带有置信区间:有没有一种方法可以表达您在知识方面所说的话?在频率 统计资料。通常使用某种方法(例如MLE)来计算点估计。是否有写(例如,具有贝叶斯中央后验间隔,其中为“真实均值”)作为(即置信区间的%的实际值),就像可以将为的函数?凭直觉,我一直以为可以做到,但从未做到。 P大号1 μ<μ<大号2 ^ 中号Ú|dμP大号 ' 1 < ˉ X -μ<大号 ' 2=ααpħ0|dpDμ^P(L1(μ^)<μ<L2(mu^)|D)μP(L1<X¯μ<L2)=ααp(H0|D)p(D|H0)
内斯托

有时能够删除评论有其缺点。在这种情况下,我跟不上快速的变化!
主教

1
如果不计算置信区间,您将拥有与隐藏的硬币类似的东西,并且包含mu的可能性为95%,就像硬币有正面的可能性为50%。 ”-我想您已经这个比喻错了。“计算CI”并不对应于显示硬币,它对应于称为“正面”或“尾巴”,此时您仍有 50-50的正确几率。显示硬币相当于*看到的填充值,此时您可以回答是否在“被叫”区间内的问题。OP的难题仍然存在。μ
Glen_b

1
@vonjd,我看不出这没有什么意义。很明显,对手有同花或没有同花的情况。如果是前者,则概率(通常)为1,如果后者为0。因此,您无法明智地将概率设为.198。这是很合理的。做手牌之前,先讨论下手同花的可能性是合理的。同样,在抽签之前,有必要先讨论获得所需西装的可能性。拿到卡后,就很适合它了。
gung

22

关于论点,推理和逻辑的形式化,明确的思想起源于亚里士多德的西方传统。亚里斯多德(Aristotle)在几本不同的作品中写了关于这些主题的文章(包括一部叫做主题;-)。但是,最基本的单一原则是“非矛盾定律”,可以在包括形而上学的各个地方找到第四卷,第3章和第4章。一个典型的表述是:“……在同一意义上,任何事物不可能同时存在和不存在”(1006 a 1)。它的重要性稍早提到:“ ...这自然是所有其他公理的起点”(1005 b 30)。原谅我在哲学上打蜡,但是这个问题从本质上讲具有哲学上的内容,不能简单地为了方便而搁置一旁。

考虑一下这种思想实验:亚历克斯抛硬币,接住硬币,然后用手遮住正面朝上,将其翻到前臂上。鲍勃站在正确的位置。他短暂地看到了Alex手里的硬币,因此可以推断出现在哪一侧朝上。但是,卡洛斯没有看到硬币-他的位置不正确。此时,Alex询问他们硬币出现正面的概率是多少。卡洛斯(Carlos)建议,机率是.5,因为这是机头的长期运行频率。鲍勃不同意,他自信地断言,概率不过是0

现在,谁是对的?当然,鲍勃有可能看错了并且是不正确的(让我们假设他没有看错)。但是,您不能认为两者都是对的,也要遵守无矛盾的法律。(我想如果您不相信非矛盾定律,您可能会认为它们都是对的,或者是其他类似的表述。)现在想象一个类似的案例,但是如果没有鲍勃在场,卡洛斯的建议是否可以还有没有鲍勃在附近的权利(是吗?),因为没有人看到硬币吗?在这种情况下,不矛盾定律的应用还不太清楚,但我认为很明显,从前者到后者,似乎很重要的部分情况一直保持不变。已经进行了许多尝试来定义概率,并且将来可能还会有更多尝试,但是将概率定义为谁正好站在周围以及他们正好位于何处的功能几乎没有吸引力。无论如何(您使用「置信区间”),我们正在采用“惯常”方法,其中是否有人知道硬币的真实状态无关紧要。它不是随机变量,而是一个已实现的值,要么显示正面,要么显示反面。

正如@John所指出的,硬币的状态乍一看似乎与置信区间是否覆盖真实均值的问题并不相似。但是,代替硬币,我们可以抽象地理解为从具有参数的伯努利分布中得出的实际值。在硬币情况下,,而对于95%CI,。建立连接时要意识到的重要一点是,隐喻的重要部分不是控制情况的,而是翻转的硬币或计算出的 CI是实现的值,而不是随机变量。 p = .5 p = .95 ppp=.5p=.95p

在这一点上,我必须指出,所有这一切都是在频率论的概率概念之内。贝叶斯观点并没有违反非矛盾定律,它只是从关于现实本质(更具体地是关于概率)的不同形而上学假设出发。其他关于简历的人比我更精通贝叶斯的观点,也许他们可以解释为什么您的问题背后的假设不适用于贝叶斯方法,并且事实上,均值的概率很可能为95%在95%的可信范围内间隔,在某些条件下(包括(其中包括)先前使用的是准确的)(请参见下面@DikranMarsupial的评论)。但是,我认为所有人都会同意,一旦您声明自己采用的是“频率论”方法,那么在任何特定的95%置信区间内,真实均值的概率就不可能为0.95。


5
在贝叶斯方法下,实际上存在95%的真实值位于95%可信区间内的可能性并不成立。如果给定特定的统计值的先验分布(代表我们的初始知识状态),然后观察数据,我们就有一个后验分布,代表知识的更新状态,这给了我们一个间隔,我们有95%的把握是真正的价值所在。仅当我们的先验是准确的(以及其他假设,例如可能性的形式)时,这才是准确的。
Dikran有袋动物博物馆,2012年

@DikranMarsupial,感谢您的来信。有点大嘴巴。我修改了答案,使其与您的建议更加一致,但没有将其复制到toto中。让我知道是否需要进行进一步的编辑。
gung

本质上,最好将贝叶斯方法解释为您对所关注参数的知识状态的陈述(请参见红衣主教,我正在学习; o),但是除非所有假设都正确,否则不能保证该知识状态是正确的。 。我享受了哲学的讨论,我将不得不记住下一次的非矛盾定律是讨论模糊逻辑; o)
Dikran Marsupial 2012年

12

为什么95%CI并不意味着95%的机会包含均值?

在此问题和大多数给定的答复中,有许多问题需要澄清。我只限于其中两个。

一种。人口是什么意思?存在真实人口意味着什么?

总体均值的概念取决于模型。由于所有模型都是错误的,但有些模型是有用的,因此该总体均值是一种虚构的概念,其定义只是为了提供有用的解释。小说从概率模型开始。

概率模型由三元组 其中是样本空间(非空集),是一个族和的子集中的一个是在定义的定义良好的概率度量(它控制数据行为)。不失一般性,仅考虑离散情况。总体均值由 即,它表示下的中心趋势,也可以解释为的质心。中的所有点,其中每个点的权重 X ˚F X P ˚F μ = Σ X X X P X = X P X X X P X = X

(X,F,P),
XFXPF
μ=xXxP(X=x),
PXxX由。P(X=x)

在概率论中,量度被认为是已知的,因此可以通过上述简单操作获得总体平均值。但是,实际上,概率几乎是未知的。没有概率,就无法描述数据的概率行为。由于我们无法设置精确的概率来解释数据行为,因此我们设置了一个其中包含可能控制(或解释)数据行为的概率度量。然后,出现了经典的统计模型 如果存在,则将上述模型称为参数模型PPPPM

(X,F,M).
ΘRpp<这样。让我们只考虑本文中的参数模型。M{Pθ: θΘ}

注意,对于每个概率度量 ,都有各自的均值定义 也就是说,有一个人口族紧密依赖的定义。家庭由人类有限定义,并且因此它可以不包含管辖数据行为的真实概率测度。实际上,所选择的家庭几乎不会包含真正的手段,而且这种真正的手段甚至可能不存在。由于总体均值的概念取决于的概率测度,因此总体均值与模型有关。PθM

μθ=xXxPθ(X=x).
{μθ: θΘ}MMM

贝叶斯方法考虑了(或等效地)的子集的先验概率,但是在本文中,我将仅关注经典版本。MΘ

b。置信区间的定义和目的是什么?

如前所述,总体均值取决于模型并提供有用的解释。但是,我们有一个总体均值族,因为统计模型是由一系列概率测度定义的(每个概率测度都会生成总体均值)。因此,基于实验,应该采用推论程序来估计包含总体均值的良好候选者的小集合(间隔)。一个众所周知的过程是()置信区域,它由一组定义,使得对于所有中的 在哪里ç α θ &Element; Θ P θÇ αX μ θ1 - α INF θ &Element; Θ P1αCαθΘ

Pθ(Cα(X)μθ)1α   and   infθΘPθ(Cα(X)μθ)=1α,
Pθ(Cα(X)=)=0(参见Schervish,1995)。这是一个非常笼统的定义,几乎涵盖了所有类型的置信区间。在此,是在度量下包含的概率。此概率应始终大于(或等于),最坏情况下会发生相等。Pθ(Cα(X)μθ)Cα(X)μθPθ1α

备注:读者应注意,没有必要对现实状态进行假设,为良好定义的统计模型定义了置信区域,而未提及任何“真实”均值。即使“真实”概率测度不存在或不在,由于假设是关于统计建模而不是现实状态的,因此置信区域定义也将起作用。M

一方面,观察数据之前,是一个随机集(或随机间隔),并且“包含均值 “ 的概率至少为表示所有。对于常客范式来说,这是非常理想的功能。Cα(X)Cα(X)μθ(1α)θΘ

另一方面,观察数据,只是一个固定的集合,并且“包含均值 ” 的概率应为{0,1}所有。xCα(x)Cα(x)μθθΘ

也就是说,观察了数据,我们不能再使用概率推理了。据我所知,尚无理论来处理观察样本的置信集(我正在研究它,并且得到了一些不错的结果)。一段时间以来,常客必须相信观察到的集合(或间隔)是包含所有中的的集之一。Ç αX 1 - α 100 μ θ θ &Element; ΘxCα(x)(1α)100%μθθΘ

附言:我邀请对我的帖子发表任何评论,评论,批评甚至反对。让我们深入讨论它。由于我不是讲英语的人,所以我的帖子肯定包含错别字和语法错误。

参考:

Schervish,M.(1995),《统计理论》,第二版,Springer。


有人要讨论吗?
2014年

4
讨论可以在聊天中进行,但在我们的主站点上是不适当的。请参阅我们的帮助中心,以了解有关其工作原理的更多信息。同时,您的帖子格式让我感到困惑:几乎所有帖子都被格式化为引文。您是否已从某个公开来源中摘录了该材料,或者是您自己为该答案新编写的?如果是后者,请删除引号!
ub

2
(+1)。谢谢你给我一个清晰的概要。欢迎来到我们的网站!
ub

11

令我惊讶的是,没有人提出Berger关于“无用原则”第二章中描述的基本无用的75%置信区间的示例。详细信息可以在原始文本中找到(可在Euclid项目上免费获得):该示例的本质是,它明确地描述了一种情况,在这种情况下,您可以绝对确定地知道表面上未知参数的值。观察数据,但是您可以断言您的间隔包含真实值只有75%的置信度。通过详细了解该示例,使我能够理解构造置信区间的整个逻辑。


8
首先,在常客设置中,不会引用CI来“断言您的区间包含真实值的可信度只有75%”。这就是问题的症结所在。:)
红衣主教2012年

1
您可以提供该示例的直接链接/页面参考吗?我搜索了本章,但找不到正确的示例。
罗纳德

@Ronald:这是第2章首页上的第一个。直接链接将是一个受欢迎的补充。
红衣主教2012年

1
根据要求链接。 是啊。在此示例中,似乎很清楚:如果我们进行实验,则结果置信区间包含平均值的可能性为75%。一旦我们完成了实验并且知道了如何进行,取决于生成的样本的分布,该概率可能会有所不同。
罗纳德

7

我不知道是否应该将其作为一个新问题提出来,但是它通过提出一个思想实验来解决上述同样的问题。

首先,我假设如果我从标准牌组中随机选择一张纸牌,那么我选择一个球杆(不看球杆)的概率为13/52 = 25%。

其次,很多次有人说,应该多次重复实验来解释95%的置信区间,并且所计算的区间将包含95%的真实均值–我认为这是James Waters合理令人信服地证明的模拟。大多数人似乎接受这种对95%CI的解释。

现在,进行思想实验。假设我们在大量人口中具有正态分布的变量-可能是成年男性或女性的身高。我有一个愿意并且不知疲倦的助手,负责执行人口中给定样本大小的多个采样过程,并计算每个样本的样本均值和95%置信区间。我的助手非常敏锐,并且设法测量了种群中所有可能的样本。然后,对于每个样本,我的助手将结果置信区间记录为绿色(如果CI包含真实均值)或红色(如果CI不包含真实均值)。不幸的是,我的助手不会向我展示他的实验结果。我需要获取有关人口中成年人身高的一些信息,但我只有时间,资源和耐心一次做实验。我制作了一个随机样本(与我的助手使用的样本大小相同),并计算了置信区间(使用相同的方程式)。

我看不到助手的成绩。那么,我选择的随机样本将产生绿色CI的概率是多少(即间隔包含真实均值)?

在我看来,这与之前概述的一副牌的情况相同,并且可以解释为计算出的间隔包含真实均值(即绿色)的概率为95%。但是,共识似乎是无法将95%的置信区间解释为该区间包含真实均值的概率为95%。为什么我在上述思想实验中的推理(在哪里)会崩溃?


+1这是从正常人口到二元抽样情况的概念发展的非常清晰的说明。感谢您与我们分享,欢迎来到我们的网站!
ub

请将此问题发布。
约翰”,

约翰,谢谢你的评论。现在已作为一个单独的问题发布(stats.stackexchange.com/questions/301478/…)。
user1718097

4

尽管在众多出色的答案中进行了广泛的讨论,但我想添加一个更简单的观点。(尽管已经在其他答案中提到了它-但没有明确提及。)对于某些参数,并给出一个样本,置信区间为的形式为概率形式θ(X1,X2,,Xn)100p%

P(g(X1,X2,,Xn)<θ<f(X1,X2,,Xn))=p

如果我们认为是一个常数,那么上面的陈述是关于随机变量和或更准确地说,它是关于随机间隔。X 1X 2X Ñ˚F X 1X 2X ÑX 1X 2X Ñ˚F X 1X 2X nθg(X1,X2,,Xn)f(X1,X2,,Xn)(g(X1,X2,,Xn),f(X1,X2,,Xn))

因此,与其提供有关参数包含在间隔中的概率的任何信息,不如提供有关包含参数的间隔的概率的信息-因为间隔是由随机变量构成的。


3

出于实际目的,您肯定会以95:5的赔率投注95%CI包含真实均值,而不是以50:50的赔率投注好友的硬币掷骰。

如果您的朋友已经掷出硬币,并且您认为硬币正面朝上的可能性为50%,那么您只是在使用“概率”一词的不同定义。正如其他人所说,对于常客,您不能为发生的事件分配概率,而是可以使用给定的过程来描述未来发生事件的概率。

在另一个博客上:常客会说:“一个特定的事件不可能发生。硬币显示的是正面还是反面,除非您显示,否则我简直无法说出事实是什么。只有当您重复抛掷许多很多次,如果您充分改变抛掷的初始条件,我希望所有抛掷中所有头的相对频率都将接近0.5英寸。 http://www.researchgate.net/post/What_is_the_difference_between_frequentist_and_bayesian_probability


2
该博客听起来像个稻草人的论点。在建立概率模型的能力方面,似乎将概率哲学与某种(不存在的)固有限制相混淆。在这种表征中,我不认识任何形式的经典统计程序或方法。尽管如此,我认为您的最终结论是一个很好的结论,但是它所使用的语言没有明确指出赌注是关于CI的意思,而不是指平均值,因此有可能造成该问题旨在解决的混乱形式。
ub

1
我经常看到的一种方法是强调CI是过程的结果。我喜欢您的最终声明,因为它可以很容易地以这种形式进行重铸,例如:“以95:5的赔率下注,您的95%置信区间覆盖了真实的均值,以50:50的赔率下注您朋友的硬币翻转。”
ub

好的,更改它。
nigelhenry

2

假设您从特定数据集计算出的配置项是不包含均值的5%可能配置项之一。您想像中的95%可信区间有多近?(也就是说,它与包含均值95%的均值有多接近?)您无法保证它完全接近。实际上,您的CI可能不会与95%CI中实际上包含平均值的95%CI中的任何一个重叠。更不用说它不包含均值本身,这也表明它不是一个95%可信区间。

也许您想忽略这一点,并乐观地假设您的CI是包含均值的95%之一。好吧,鉴于您的CI在95%之内,我们对它的了解是什么?它包含均值,但可能仅是极端的出路,不包括均值另一端的所有其他内容。不太可能包含95%的分布。

无论哪种方式,都无法保证,甚至无法合理地希望您的95%CI是95%可信区间。


我对第一段感到好奇。也许我误读了它,但该论点似乎与以下事实有些矛盾:在多个示例中,所有可能的观察集的配置项和可信区间都重合。我错过了什么?
红衣主教2012年

@cardinal:我可能是错的。我说的是一般情况,但我的猜测是,在CI和可信区间相同的情况下,还有其他限制(例如正则性)会阻止CI距离太远。
韦恩

我的注意力最集中于该段的最后一句话;重合间隔的示例旨在突出显示一个点。您可能会考虑您是否真的相信那句话。:)
红衣主教2012年

您是说95%CI并不意味着5%包含均值吗?我应该说“根据定义,甚至不需要包含均值本身”吗?还是我想念更多?
韦恩

韦恩,特定间隔不包含均值的事实如何使它成为有效的可信间隔呢?我看错了这句话吗?
红衣主教2012年

2

(即,一位朋友掷出公平的硬币,隐藏了结果,我被禁止说有50%的可能性是正面的)

如果您只是在猜朋友的硬币翻转率是50%(正面/尾部),那么您就做错了。

  • 在落下硬币后/隐藏硬币之前,您应尝试快速查看硬币。
  • 另外,您应该尝试事先对硬币的公平性做出一些先验估计。

当然,您猜硬币的可信度将取决于这些条件,并且不一定总是相同的50%(有时,“作弊”方法可能会更好)。

如果您作弊,您的总体猜测可能是正确的时间> 50%,但这并不一定意味着每次特定掷出的概率始终是x%的正面概率。因此,将您的总体概率投射到特定投掷概率上会有些奇怪。这是一种不同的“概率类型”。


您要指定/定义“概率”的级别或深度是多少。

  • 置信度独立于“特定实验/翻转中的特定概率”,并且独立于“先验概率”

  • 信心在于实验合奏。它的构造使您无需知道先验概率或总体中的分布。

  • 置信度是估计的整体 “失败率”,但是对于特定情况,人们可能能够更精确地指定概率的变化

    这些概率变异至少在理论上隐式存在,并且我们不需要知道它们的存在。但是,我们可以使用贝叶斯方法明确表达这些概率)。


范例1:

假设您正在测试一种非常罕见的疾病。您执行的测试可能被视为伯努利试验(阳性或阴性),该人生病时阳性结果的高,而未生病时低。p = 0.01p=0.99p=0.01

现在,通常不这样做(在临床实践中)来估计的CI间隔,但是您可以根据需要(例如)这样做。如果测试为阳性,则您估计;如果测试为阴性,则您估计。0.05 p 1 0 p 0.95p0.05p10p0.95

如果您有1%的人口患病,那么平均而言,您将获得1.98%的检测呈阳性(99%的健康人群检测为阳性,而1%的1%人群检测为阳性,其中的99%)。这使您的95%CI间隔(有条件)在您遇到阳性测试时(仅在50%的时间内更正)。

另一方面,当您遇到阴性测试时,您将有超过95%的时间是正确的,因此总体而言,您的CI间隔估计值(至少)有95%的时间是正确的,但要视具体情况而定(针对特定情况) ),您不能真正说出区间内的概率为95%。可能会有一些变化。p

范例2:

假设您有人在回答300个智商问题。从幼稚的置信区间和频繁主义者的角度来看,您可以假设每个人都有一个理论上的个人分布用于测试性能,并且可以基于观察到的测试性能为间隔创建一些估计这样在95%的情况下,您将正确地在间隔中包含。Ñ μ σ 2 μ iN(μi,σi2)μi

这忽略了均值回归的影响,并且任何人的IQ的先验概率形式分布。然后,在极端情况下,无论结果的高低,结果都是基于测量/测试的95%置信区间中的人的智商概率将低于 95%。 Ñ 100 15 μiN(100,15)

(对于结果接近100的人而言,情况恰恰相反,在95%-CI范围内,他们的智商很可能比95%高,这应该弥补您在极端情况下犯下的错误,从而最终使您成为正确的人在95%的情况下)


2

首先,让我们给出置信区间的定义,或者在维数大于1的空间中,给出置信区间。该定义是Jerzy Neyman在1937年致皇家学会的论文中给出的简明版本。

令参数为,而统计量为。每个可能的参数值与一个接受区域关联,为此,其中为置信度或置信度(通常为0.95),而为背景信息,我们必须定义概率。该置信区域给出的,,然后。pspA(p,α)prob(sA(p,α)|p=p,I)=ααIps=sC(s,α)={p|sA(p,α)}

换句话说,形成置信区域的参数值就是那些其样本空间的对应概率区域包含统计信息的参数值。α

现在考虑对于任何可能的参数值:p

[pC(s,α)]prob(s=s|p=p,I)ds=[sA(p,α)]prob(s=s|p=p,I)ds=α

其中方括号是Iverson括号。这是置信区间或区域的关键结果。它说的期望在条件下的采样分布为。该结果由接受区域的构造来保证,而且适用于,因为是可能的参数值。但是,这不是关于的概率陈述,因为期望不是概率![pC(s,α)]pαppp

期望值通常被误认为的概率是在条件下该参数位于置信区域内的概率:s=s

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=s|p=p,I)prob(p=p|I)dpprob(s=s|p=p,I)prob(p=p|I)dp

仅对于信息和接受区域某些组合,此概率降低为。例如,如果先验是均匀的并且采样分布在和是对称(例如,以为平均值的高斯),则:αIA(p,α)spp

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=p|p=s,I)dpprob(s=p|p=s,I)dp=prob(sC(s,α)|p=s,I)=prob(sA(s,α)|p=s,I)

此外,如果接受区域是,则:sA(s,α)sA(s,α)

prob(pC(s,α)|s=s,I)=prob(sA(s,α)|p=s,I)=α

在上述假设的特殊情况下,教科书示例使用标准的统计量构建具有标准置信区间的总体平均值。因此,标准的95%置信区间确实包含均值为0.95的均值;但这种对应关系通常不成立。


-1

这里有一些有趣的答案,但是我想我会使用R添加一些动手演示。我们最近在统计课程中使用了此代码,以突出显示置信区间的工作原理。代码是这样的:

1-从已知分布中采样(n = 1000)

2-计算每个样本的平均值的95%CI

3-询问每个样本的CI是否包含真实均值。

4-它在控制台中报告包含真实均值的CI分数。

我只运行了几次脚本,发现少于94%的配置项包含真实均值实际上并不少见。至少对我而言,这有助于消除置信区间具有95%的概率包含真实参数的想法。

#   In the following code, we simulate the process of
#   sampling from a distribution and calculating
#   a confidence interval for the mean of that 
#   distribution.  How often do the confidence
#   intervals actually include the mean? Let's see!
#
#   You can change the number of replicates in the
#   first line to change the number of times the 
#   loop is run (and the number of confidence intervals
#   that you simulate).
#
#   The results from each simulation are saved to a
#   data frame.  In the data frame, each row represents
#   the results from one simulation or replicate of the 
#   loop.  There are three columns in the data frame, 
#   one which lists the lower confidence limits, one with
#   the higher confidence limits, and a third column, which
#   I called "Valid" which is either TRUE or FALSE
#   depending on whether or not that simulated confidence
#   interval includes the true mean of the distribution.
#
#   To see the results of the simulation, run the whole
#   code at once, from "start" to "finish" and look in the
#   console to find the answer to the question.    

#   "start"

replicates <- 1000

conf.int.low <- rep(NA, replicates)
conf.int.high <- rep(NA, replicates)
conf.int.check <- rep(NA, replicates)

for (i in 1:replicates) {

        n <- 10
        mu <- 70
        variance <- 25
        sigma <- sqrt(variance)
        sample <- rnorm(n, mu, sigma)
        se.mean <- sigma/sqrt(n)
        sample.avg <- mean(sample)
        prob <- 0.95
        alpha <- 1-prob
        q.alpha <- qnorm(1-alpha/2)
        low.95 <- sample.avg - q.alpha*se.mean
        high.95 <- sample.avg + q.alpha*se.mean

        conf.int.low[i] <- low.95
        conf.int.high[i] <- high.95
        conf.int.check[i] <- low.95 < mu & mu < high.95
 }    

# Collect the intervals in a data frame
ci.dataframe <- data.frame(
        LowerCI=conf.int.low,
        UpperCI=conf.int.high, 
        Valid=conf.int.check
        )

# Take a peak at the top of the data frame
head(ci.dataframe)

# What fraction of the intervals included the true mean?
ci.fraction <- length(which(conf.int.check, useNames=TRUE))/replicates
ci.fraction

    #   "finish"

希望这可以帮助!


2
对此表示歉意,但我不得不(暂时)拒绝了这个答案。我相信这是对置信区间含义的误解,我衷心希望这不是您课堂上使用的论据。模拟简化为(相当复杂的)二项式采样实验。
主教2012年

5
@cardinal好...他只是使用对常客主义统计数据的长期解释。多次从总体中采样,多次计算CI,您会发现95%的时间的真实均值包含在CI中(对于)。至少我很清楚。1α=0.95
内斯托尔

4
在1000个配置项的样本中,“少于94%”肯定不是反对95%的配置项包含平均值的想法的重要证据。实际上,在这种情况下,我希望95%的配置项确实包含均值。
罗纳德

3
@Ronald:是的,这正是我的观点与意见,但你说的是很多更简单和简洁。谢谢。正如其中一条评论中所述,在大约8.7%的时间内,人们将看到940次成功或更少的成功,而在1000次实验过程中,任何一个准确的95%CI 都是如此。:)
主教

2
@JamesWaters:感谢您抽出宝贵的时间回复。该代码很好,但是我看不到它如何“演示不正确的实例”。你能解释一下这个意图吗?我仍然怀疑这里可能存在根本的误解。您似乎了解I CI是什么以及如何正确解释它,但是模拟实验并未回答您似乎声称它已回答的问题。我认为这个答案很有潜力,因此我希望看到它得到一个不错的修改,以澄清您想要传达的观点。干杯。:)
主教
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.