确切地说,置信区间是多少?


86

我大致和非正式地知道什么是置信区间。但是,我似乎无法围绕一个相当重要的细节:根据Wikipedia:

置信区间不能预测给定实际获得的数据,参数的真实值具有置信区间内的特定概率。

我还在该站点的多个地方也看到了类似的观点。同样来自维基百科的更正确的定义是:

如果在重复(可能不同)实验的许多单独数据分析中构建置信区间,则包含参数真实值的此类区间的比例将大致与置信度匹配

同样,我在该站点的多个地方也看到了类似的观点。我不明白 如果在重复实验中,包含真实参数的计算出的置信区间的分数为,那么为实际实验计算出的置信区间中的概率怎么可能不是吗?我在寻找以下内容:1 - α θ 1 - α θ(1α)θ(1α)

  1. 澄清以上错误定义和正确定义之间的区别。

  2. 对置信区间的正式,精确的定义,清楚地表明了第一个定义错误的原因。

  3. 即使基础模型正确,但第一个定义明显错误的情况的具体示例。


4
这篇文章对置信区间stats.stackexchange.com/questions/2356/…的问题进行了很好的讨论。我认为,这篇文章中提到的文章有助于阐明一些原因,正是上述定义对于置信区间正确的原因。通常,在查看配置项如何分解时,人们可以更好地理解它们。
概率

2
我的一部分为这个问题表示赞赏(+1)。一个相互竞争的部分要指出:1.绝大多数统计消费者,即出于实用目的而不是出于哲学目的在统计学或市场研究中表达观点的人们,永远不会把握这些问题的精妙之处,我们经常不知所措地解释结果。2.即使是一些纯粹的统计学家也可能陷入做出所谓的概率陈述的陷阱,例如在不使用随机样本的情况下涉及置信区间的陈述。一个更大的问题。
rolando2'2

3
@Mario您的假设不正确!在100次重复实验中,我们期望95 个配置项(不是均值)包含真实(但未知)均值。CI是随机的,但真实的总体平均值不是。
ub

6
Cumming&Maillardet(2006)的一篇不错的论文显示,不是95%的复制手段将落入原始CI中,而只有83.4%(他们将此值称为“捕获百分比”)。原因是有两个变异性来源:A)原始均值的变异性mu,以及B)复制均值的变异性mu。大多数人都忘记了A:不必围绕原始CI构造mu
Felix S

2
感兴趣的读者可能还希望看到以下主题:为什么95%CI不意味着95%的机会包含均值?
gung

Answers:


26

在考虑置信区间时,我发现该思想实验很有帮助。它还回答了您的问题3。

令和。考虑的两个观察服用值和对应于观测和的,并让和。然后为50%的置信区间(因为间隔包括如果或,每一个都具有概率)。ÿ = X + - 1XU(0,1)Y=X+a12Yy1y2x1x2Xÿ Ü = 最大值Ý 1ÿ 2[ Ý ÿ ù ] 一个一个X 1 < 1yl=min(y1,y2)yu=max(y1,y2)[yl,yu]aax1>1x1<12<x21x1>12>x214

但是,如果那么我们知道区间包含的概率为,而不是。细微之处在于,参数的置信区间意味着在计算区间之前,区间的端点(是随机变量)以概率位于参数的任一侧,而不是参数的概率计算间隔后,位于间隔内的值为。11yuyl>12a1 zzz12z%z% z%


3
注意,几乎,因此间隔 包含概率为零的参数。实际上,如果您要估计的是则您的论点有效。[ ÿ ÿ ù ] 一个θ = 一个+ 1Y>a[yl,yu]aθ=a+12
难道

4
我认为此反例无效,因为您仅在看到后才知道间隔包含的概率为。我们获得更多信息后概率应该发生变化是完全合理的。如果您只知道该间隔是50%的置信区间,则该概率仍将是1/2(尽管这是贝叶斯概率,而不是常客概率,因为它适用于没有长期运行频率的特定事件)ÿ ü - ý > 1 / 2θyuyl>1/2
2011年

1
这的确是一个很好的例子,但我强烈的声明不同意概率某种程度上改变之前之后计算的置信区间。那毫无意义,给人的印象是数学在某种程度上关心着你所知道的和你所不知道的。不是!您始终拥有中的是。您还始终具有是。这不是矛盾,一个仅仅是无条件概率,而另一个是有条件概率。1P(a[yl,yu]) P一个[ÿÿù]121P(a[yl,yu]|yuyl>12)1
fgp

2
@fgp,是的,也许泰勒在谈论概率变化方面措辞不佳。概率没有改变。论据所显示的是,情况容易出现,这表明对CI的错误理解会导致逻辑问题。如果您认为所观察到的配置项正确的可能性为50%,但不可能正确,那么您就知道配置项是错误的。
约翰·

36

关于置信区间有很多问题,但让我们集中讨论报价。问题在于可能的误解,而不是正确性。当人们说“参数具有某种特定可能性”时,他们将参数视为随机变量。这不是(经典)置信区间过程的观点,对于该过程,随机变量是区间本身,并且参数是确定的,不是随机的,但未知。这就是为什么此类语句经常受到攻击的原因。

从数学上讲,如果让是将数据映射到参数空间子集的任何过程,并且(无论参数的值是什么)断言定义了一个事件,然后-根据定义-它有一个概率对于任何可能值。当是置信区间为的置信区间过程时,则该概率的最小值(在所有参数值上)为X = X θ θ &Element; XXθX θ 1 - α 1 - αtx=(xi)θθt(x)A(x)Prθ(A(x))θt1α1α。(根据此标准,我们通常选择优化某些附加属性的过程,例如产生较短的置信区间或对称的间隔,但这是另一回事。)然后,大数定律弱化了第二个引号。但是,这并不是对置信区间的定义:这仅仅是它们具有的属性。

我认为该分析已经回答了问题1,表明问题2的前提不正确,并使问题3成为现实。


3
感谢您提供一个很好的问题的答案。我可以提出以下类比作进一步讨论吗?假设我一遍又一遍地掷硬币。然后,。现在,我一次抛硬币,但不向您展示我抛硬币的情况,而是问:“抬头的概率是多少?”。您将如何回答这个问题?P(Head)=.50
沃尔夫冈

3
用另一种表达方式:非贝叶斯主义者,唯一可能具有可能性的“事物”是可能的事件,就随机实验的未来结果而言。假定参数具有固定的true值,则一旦您有一个具有特定值的间隔,无论该参数是否包含在间隔中,就不再可能发生。因此,您可以对生成间隔的过程充满信心,但不能对两个特定数字有信心。
caracal

1
@caracal-值得一提的是,每一次真正的“随机”都是一次“硬币翻转”吗?如果您说“是”,那么您会拒绝这样的想法,即硬币是否朝上是许多事物(例如风,高度,翻转力和翻转角度,硬币重量等)的确定性(但复杂)函数。 )。我认为这显示了适用于基于CI的思维的“随机性” 双重标准数据是固定的,但我们不确定其值(ergo 数据是随机的),而参数是固定的,但我们不确定其值( ergo 参数不是random)。
概率

4
@Wolfgang我看不到您的示例与置信区间的关系。您不需要任何与分布参数有关的信息。您的情况与预测间隔最密切相关 我认为整个讨论都可能对这种情况感兴趣,但是它不属于有关置信区间的话题。
whuber

2
@whuber这个问题是否可以对捕获真实未知参数的特定95%CI做出概率陈述,这一问题与是否可以对仍然未知结果的特定翻转做出概率陈述的问题非常相似。从长远来看,95%的配置项将捕获该参数。从长远来看,50%的掷骰是正面。我们是否可以说特定配置项捕获参数的机率有95%?我们可以说在抬头之前抬头有50%的机会吗?我对双方都说是。但是有些人可能会不同意。
Wolfgang

19

我不会将CI的定义称为错误,但是由于存在多个概率定义,因此容易误解。配置项基于以下概率定义(频率论或本体论)

(1)命题的概率=命题被观察为真实的时间的长远比例,取决于数据生成过程

因此,为了在概念上有效使用CI,您必须接受概率的定义。如果您不这样做,那么从理论上讲,您的间隔不是CI。

这就是为什么该定义使用词比例而不是概率词的原因,以明确表明正在使用概率的“长期运行”定义。

概率的主要替代定义(认识论或概率作为演绎逻辑或贝叶斯的扩展)是

(2)命题的概率=对命题是真实的合理信念程度,以知识状态为条件

人们通常会在直觉上将这两个定义混为一谈,并使用碰巧符合其直觉的任何解释。这会使您陷入各种令人困惑的情况(尤其是当您从一种范例转到另一种范例时)。

两种方法通常会导致相同的结果,这意味着在某些情况下,我们有:

命题是真实的合理信念程度,以知识状态为条件=命题被观察为为真的长期运行比例,以数据生成过程为条件

关键是它不能普遍适用,因此我们不能期望两个不同的定义总会导致相同的结果。因此,除非您实际计算出贝叶斯解决方案,然后发现它是相同的区间,否则您无法将CI给出的区间解释为包含真实值的概率。如果这样做,则该间隔不是置信区间,而是可信区间。


2
我不明白为什么根据定义1提出命题的概率应该是一个有理数。长期比例似乎是指时间比例的限制,以使该命题被观察为真实。每个比例都是一个有理数,但它们的极限可能不是。(幸运的是,这个括号你似乎切线充其量你的答案的其余部分。)
难道

3
@probability此答复似乎以一种不太建设性的方式使我们脱离了切线。等同概率和比例是本体论混淆的一种形式,类似于将温度与温度计中的汞含量相等:一种是理论上的构造,另一种是用来测量它的物理现象。stats.stackexchange.com/questions/1525/…对此进行了一些讨论。
whuber

@Didier-您说得对,实际上,这是具有非理性限制的理性术语。我已删除此评论。感谢您提出来。xn=r2xn1+xn12r
概率

6
@whuber-提出这一点很重要,因为正是这种误解导致人们以错误的方式解释CI。将概率与“理性信仰程度”混淆不符合常客主义范式。这就是当您将CI表示“真值在区间中的概率”时发生的情况,这就是@dsimcha在问题中所做的事情。
概率

1
@probability谢谢您的解释。我理解您的答复符合“概率=比例”的定义。实际上,仔细阅读仍表明这是您在第三段中所说的内容,即使您的评论现在将其描述为一种误解。您可能需要澄清这一点。
whuber

6

RA Fisher提出了置信区间有用性的标准:CI不应接受暗示不同置信度的“可识别子集”。在大多数(如果不是全部)反例中,我们会遇到具有可识别概率不同的可识别子集的情况。

在这些情况下,您可以使用贝叶斯信度间隔来指定参数的主观感觉,或者可以给定数据来制定似然区间以反映参数的相对不确定性。

例如,似乎相对无矛盾的一种情况是总体平均值的两面法线置信区间。假设从具有给定标准值的正常人群中抽样,则95%CI承认没有可识别的子集,该子集不会提供有关该参数的更多信息。从以下事实可以看出这一点:样本均值在似然函数中具有足够的统计量-即,一旦我们知道样本均值,似然函数就独立于各个样本值。

我们对正常均值的95%对称置信度有任何主观信心的原因,较少来自所述覆盖率,而更多地是因为正常均值的对称95%置信区间是“最高似然”区间,即所有间隔内的参数值比间隔外的任何参数值都具有更高的可能性。但是,由于似然不是概率(从长期准确性的角度来看),所以它更多是一种主观标准(就像先验和似然的贝叶斯用法一样)。总之,法向平均值的无限多个间隔具有95%的覆盖率,但只有对称CI具有我们期望的区间估计的直观似然性。

因此,RA Fisher准则表明,覆盖率仅在不承认这些可识别子集的情况下,才应与主观信心等同。如果存在子集,则覆盖概率将取决于描述子集的参数的真实值。为了获得具有直观置信度的区间,您需要根据适当的辅助统计条件来确定区间的估计,以帮助识别子集。或者,您可以求助于分散/混合模型,这自然会导致将参数解释为随机变量(又称为贝叶斯统计量),或者可以在似然框架下计算轮廓/条件/边际似然。无论哪种方式,您都放弃了提出客观上可验证的正确性的希望,

希望这可以帮助。


1
(+1)证明对称法线CI的一种方法是将期望的长度最小化。归根结底,这只是将主观性退回到了选择长度作为决策程序中的损失函数:但这可以说是一种“好的”主观性(因为它暴露了我们在选择统计程序时分析目标的作用),而不是“不好的”主观性,听起来仅像是一些贬义词。
ub

5

理论的角度来看,问题2和3基于错误的假设,即定义错误。因此,我在这方面同意@whuber的回答,@ whuber对问题1的回答不需要我提供任何其他投入。

但是,从更实际的角度来看,如果置信区间在数值上与基于相同信息的贝叶斯可信区间(即非信息先验值)相同,则可以给出其直观定义(包含真实值的概率)。

但是,这对于顽固的反贝叶斯方法有些令人沮丧,因为要验证条件以给他的CI提供他/她想要给出的解释,他们必须制定出贝叶斯解决方案,对此,直观的解释将自动成立!

最简单的示例是具有已知方差的法线平均值的置信区间,以及后可信区间。&OverBar; X ± σ ž α / 2 1 - α &OverBar; X ± σ ž α / 21αx¯±σZα/21αx¯±σZα/2

我不确定这些条件,但是我知道以下内容对于保持CI的直观解释很重要:

1)存在数据透视统计,其分布与参数无关(精确的数据是否存在于正态分布和卡方分布之外?)

2)没有烦人的参数(除非是“关键点”统计,这是制作CI时必须处理烦人参数的几种确切方法之一)

3)感兴趣参数存在足够的统计量,并且置信区间使用足够的统计量

4)充分统计量的采样分布和后验分布在充分统计量和参数之间具有某种对称性。在正常情况下,采样分布的对称性为而。μ|&OverBar;XσѯXσ(x¯|μ,σ)N(μ,σn)(μ|x¯,σ)N(x¯,σn)

这些条件通常很难找到,通常可以更快地计算出贝叶斯区间并进行比较。一个有趣的练习可能是尝试回答以下问题:“我的CI之前还具有可信区间是什么?” 通过查看此先前知识,您可能会发现有关CI程序的一些隐藏假设。


1
(+1)真的有“反贝叶斯”这样的人吗?:-)
whuber

6
@whuber 这是一个。而且这里是一个计量经济学家谁在统计的哲学学术与她合作。
青色

1
谢谢!在我不知道的概率和统计哲学中,这是一个非常有趣的线索。
ub

1
您是否将误写为缺少?x¯±zα/2σnn
qazwsx

3

这件事可能很难理解:

  • 如果平均所有置信区间的95%将包含参数
  • 我有一个特定的置信区间
  • 为什么该间隔也包含参数的可能性也为95%?

置信区间与采样过程有关。如果您要抽取很多样本并为每个样本计算95%的置信区间,则会发现其中95%的区间包含总体平均值。

这对于例如工业质量部门很有用。那些家伙拿了很多样本​​,现在他们有信心,他们的大多数估计将非常接近现实。他们知道他们的估计中有95%都不错,但是对于每个具体的估计都不能这么说。

将此与掷骰子进行比较:如果您掷600个(普通)骰子,您将掷出6个?您最好的猜测是 * 600 = 100。16

但是,如果您丢了一个骰子,那就没用了:“我现在丢6的概率是1/6或16.6%”。为什么?因为骰子显示的是6或其他数字。您是否抛出了6。因此,概率为1或0。概率不能为。16

当在掷掷骰子之前被问到掷一个骰子掷出6的概率是多少时,贝叶斯会回答“ ”(根据先前的信息:每个人都知道骰子有6个面并且有相等的机会(因为它们落在其中任何一个上),但是常客会说“不知道”,因为常客行为完全基于数据,而不是先验或任何外部信息。16

同样,如果您只有1个样本(因此有1个置信区间),则无法说出总体平均值在该区间内的可能性。平均值(或任何参数)是否在其中。概率为1或0。

另外,置信区间内的值比该区间外的值更有可能是不正确的。我做了一个小插图;一切均以°C为单位。请记住,水在0°C时冻结,在100°C时沸腾。

情况:在一个寒冷的湖泊中,我们想估算在冰之下流动的水的温度。我们在100个位置测量温度。这是我的数据:

  • 0.1°C(在49个位置测量);
  • 0.2°C(也在49个位置);
  • 0°C(在1个位置。这是水即将结冰);
  • 95°C(在一个地方,有一家工厂非法将非常热水倒入湖中)。
  • 平均温度:1.1°C;
  • 标准偏差:1.5°C;
  • 95%-CI:(-0.8°C ...... + 3.0°C)。

在此置信区间内的温度绝对不会比其外部的温度高。该湖中流水的平均温度不能低于0°C,否则不是水而是冰。该置信区间的一部分(即,从-0.8到0的部分)实际上具有0%的概率包含true参数。

结论:置信区间是一个经常性的概念,因此基于重复样本的思想。如果许多研究人员将从该湖中取样,并且所有这些研究人员都将计算置信区间,那么这些区间中的95%将包含真实参数。但是对于一个单一的置信区间,无法说出包含真实参数的可能性。


1
不要混淆常客统计不能衡量信仰的事实与拥有先行信念并更新他们的常客的事实。区别不在于常人是否是没有数据以外知识的白痴,而是常人的统计数据是否提供了对信仰状态的直接衡量。该常客必须根据测试,配置项等来更新其信念。否则,他们的整个系统将无法正常工作,因为一切都取决于所做出的决定。
约翰,

2

好的,我意识到,当您使用经典的频率论方法为参数计算95%的置信区间时,这并不意味着该参数位于该区间内的可能性为95%。但是……当您从贝叶斯角度解决问题并计算参数的95%可信区间时,您(假设是非信息性先验)获得与经典方法完全相同的区间。所以,如果我用经典统计学来计算(比方说)95%的置信区间的数据集的均值,那么它真的,有该参数位于该区间95%的可能性。


5
您是否使用频繁的置信区间和贝叶斯可信区间来获得相同的结果取决于问题,尤其取决于贝叶斯方法中使用的先验分布。在数学和科学中,同样重要的是,正确的时候,正确的理由就是正确的!
Dikran有袋动物2011年

4
如果“使用经典统计数据计算[参数]的95%置信区间”,则如果您始终如一地推理,则提及“参数位于该区间的概率” 是没有意义的。提到该可能性的那一刻,您已经更改了情况的统计模型。在参数为随机的新模型中,使用频繁方法计算CI是不正确的。在某些情况下以这种方式获得正确的答案很有趣,但是并不能证明其背后的概念混乱。
Whuber

4
@whuber-您的前提是“ ...如果您始终如一地推理...”,则源于良好的旧Cox定理。它表示,如果您始终如一地推理,那么您的解决方案必须在数学上等同于贝叶斯解决方案。因此,在此前提下,CI必定等于可信区间,并且将其解释为概率是有效的区间。在贝叶斯中,不是具有分布的参数,是关于具有分布的参数的不确定性。
概率

2
...继续...所以可以玩一个愚蠢的游戏,我是贝叶斯(Bayesian)“参数在区间内的概率”,我是常客“区间(覆盖区间)参数的概率”,我是贝叶斯...,我是常客,...,我是贝叶斯人,...,我是常客,.....尽管如此,实际计算的数字却从未改变
概率论

2

您是在询问“ 频繁”置信区间。定义(请注意,您的2引文都不是定义!只是陈述,两者都是正确的)是:

如果我多次重复此实验,则在给定具有该参数值的拟合模型的情况下,在95%的实验中,参数的估计值将落在此间隔内。

因此,您有一个模型(使用观察到的数据构建)及其估计参数。然后,如果根据此模型和参数生成了一些假设的数据集,则估计的参数将落入置信区间内。

因此,实际上,这种常用方法采用给定的模型和估计参数为固定值,并将您的数据视为不确定的-作为许多其他可能数据的随机样本。

这确实很难解释,并且经常用作贝叶斯统计量的一个参数(我认为有时可能会引起争议。另一方面,贝叶斯统计量会将您的数据固定为变量,并将参数视为不确定的。贝叶斯可信区间为然后就如您所期望的那样直观起来:贝叶斯可信区间是实际参数值占95%的区间。

但是实际上,许多人以贝叶斯可信区间相同的方式来解释频繁主义者的置信区间,许多统计学家并不认为这是一个大问题-尽管他们都知道,这并不是100%正确的。同样在实践中,当使用贝叶斯非信息先验时频繁主义者和贝叶斯的置信度/可信区间不会有太大差异


-1您的“定义”似乎是错误的,至少在一次阅读中是错误的。的 CI被构造成覆盖所述真实的概率参数。它不是以特定模型或参数拟合方法为条件的。但是,也许我会误解定义:我采用“具有此参数值的拟合模型”来指代您当前对参数的估计。如果这不是您的预期目的,也许您可​​以澄清这一点?1α1α
ub

@whuber,好的,我接受,但是如果您说我的定义有误,请发表您对CI的完整定义。
好奇的2012年

我已经澄清了我的评论,Tomas,因为它发生在我身上,我可能会以您不希望的方式阅读您的定义。统计推断导论的基弗(Kiefer)写道:“ 假设实验用于估计,则实验的结果为 ... [S] 。是 ... [数量] .. .The数被称为置信系数的程序 ...被称为Xt=[L,U]ϕ(θ)θθ0γt(θ0)=Prθ0{L(X)ϕ(θ0)U(X)}γ¯t=infθΩγt(θ)tt置信区间。
Whuber

@whuber,您的定义对我来说真的很难理解,而且我对大多数人也很害怕:)是的,我的意思是当前估计,因为常客得到给定的参数估计和数据为随机数,这与贝叶斯相反。
好奇的2012年

3
我认为您的定义Curious中的主要问题是:“ ...参数的估计值将落在间隔内。” 它不是估计的参数,而是未知的固定参数。并且它不在该间隔内,而是间隔在移动,并且95%的时间捕获了该参数。
约翰

2

假设我们处于一个简单的情况。你有一个未知参数和的估计有大约1(非正式)的不精确。您认为(非正式地)应该位于。θTθθ[T1;T+1]

在实际实验中,您观察到。T=12

很自然地问这样一个问题:“给我看(),概率多少?”。数学上:。大家自然会问这个问题。置信区间理论应该从逻辑上回答这个问题。但事实并非如此。T=12θ[11;13]P(θ[11;13]|T=12)

贝叶斯统计确实回答了这个问题。在贝叶斯统计中,您可以真正计算。但是在进行实验和观察之前,您需要假设先验是的分布。例如 :P(θ[11;13]|T=12)θT

  • 假设在上具有先验分布θ[0;30]
  • 做这个实验,发现T=12
  • 应用贝叶斯公式:P(θ[11;13]|T=12)=0.94

但是在常客统计中,没有先验,因此不存在任何类似。取而代之的是统计学家这样说:“无论是什么中的概率都是 ”。数学上: “P(θ...|T...)θθ[T1;T+1]0.95θ,P(θ[T1;T+1]|θ)=0.95

所以:

  • 贝叶斯:对于Ť = 12P(θ[T1;T+1]|T)=0.94T=12
  • 惯常论者:θ,P(θ[T1;T+1]|θ)=0.95

贝叶斯陈述更自然。通常,经常性陈述被自发地误解为贝叶斯陈述(被任何多年未进行统计的正常人脑所误解)。老实说,许多统计书并未明确指出这一点。

实际上呢?

在许多通常情况下,事实是,通过常识和贝叶斯方法获得的概率非常接近。这样一来,贝叶斯主义的常客主义说法就难以理解。但是“从哲学上”这是非常不同的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.