对解释置信区间进行澄清?


47

我现在的想法“与置信水平置信区间的理解 ”是,如果我们试图计算置信区间多次(用新鲜的样本,每次),它将包含正确的参数的时间。1 - α1α1α

尽管我意识到这与“真正参数位于此区间的概率”不同,但我还是要澄清一些事情。

[主要更新]

在我们计算95%的置信区间之前,我们有95%的概率计算出的区间将覆盖真实参数。在计算出置信区间并获得特定区间,我们就不能再说了。我们甚至无法做出某种非经常性的论据,因为我们95%确信真正的参数将位于;因为如果可以的话,它将与诸如此类的反例相矛盾:确切地说,置信区间是多少?[ a b ][a,b][a,b]

我不想就概率论进行辩论;取而代之的是,我正在寻找一种精确的数学解释,说明特定间隔变化方式和原因,以及为什么不改变(或不改变)我们看到该间隔之前有95%的概率。如果您辩称“在看到间隔之后,概率的概念就不再有意义了”,那就好了,让我们对它确实有意义的概率进行解释。[a,b]

更确切地说:

假设我们对计算机进行编程以计算95%的置信区间。计算机进行一些数字运算,计算间隔,直到我输入密码后才拒绝显示间隔。在我输入密码并看到间隔之前(但是在计算机已经计算出间隔之后),间隔包含真实参数的概率是多少?这是95%,这部分不值得辩论:这是我对这个特定问题感兴趣的概率的解释(我意识到我正在压制主要的哲学问题,这是有意为之)。

但是,只要我输入密码并让计算机向我显示它计算的间隔,该概率(间隔包含真实参数)就可能改变。任何声称这种可能性永远不会改变的说法将与上述反例相抵触。在此反例中,概率可以从50%变为100%,但是...

  • 是否有任何示例将概率更改为100%或0%以外的值(编辑:如果是,则是什么)?

  • 有没有发现特定间隔之后概率不变的示例(即,真实参数位于的概率仍然是95%)?[ a b ][a,b][a,b]

  • 看到计算机吐出之后,概率一般如何(以及为什么)改变?[a,b]

[编辑]

感谢您提供的所有出色答案和有用的讨论!


1
这可能会提供一些有趣的观点:en.wikipedia.org/wiki/Credible_interval
nico

您认为P(E | C)= 1和P(E | C')= 0是不合理的。您为什么要声明,如果实际间隔不包含真实参数值,那么后一个参数肯定不在该参数值范围内?

我不确定“实际间隔”或“后一个”是什么意思。你能澄清一下吗?
Elliott

@nico感谢您的链接。我最初的问题的目的是“我的论点似乎表明,可以将置信区间解释为贝叶斯可信区间,但事实并非如此,所以我的推理出了什么问题”。但是我不得不承认,我对“区间包含[unknown] true参数的概率为0或1”的概念不满意。对我来说,这就像在说:“在我将硬币翻转后,但在我未看过之前,硬币落下的概率是0或1”;我不明白为什么不是1/2。
Elliott

@Elliot:我想到了Schrödinger的猫:)我不够专业,无法给您适当的解释,但是我很乐意看到这个答案。PS:我们不要忘记,硬币也可能掉在边缘!
nico

Answers:


28

我认为根本的问题是,常客统计只能将概率分配给可以长期运行的事物。参数的真实值是否在特定的时间间隔内没有一个长的运行频率,因为我们只能执行一次实验,所以您不能为其分配频繁的概率。问题来自概率的定义。如果将概率的定义更改为贝叶斯概率,那么该问题将立即消失,因为您不再依赖于长期频率的讨论。

见我(在脸颊,而舌头)回答一个相关的问题在这里

常客是一个相信概率代表发生事件的长期频率的人;如果需要,他会发明一个虚拟种群,从中将您的特定情况视为随机样本,以便他可以有意义地谈论长期频率。您问他一个关于特定情况的问题,他不会直接给出答案,而是要对这个(可能是假想的)人口做出说明。

在置信区间的情况下,我们通常要问的问题(例如,除非我们在质量控制方面存在问题)是“给定此数据样本,返回包含概率的参数真实值的最小区间X”。但是,常客不能这样做,因为实验仅执行一次,因此没有长期运行的频率可用于分配概率。因此,常客必须发明大量实验(您没有执行过),从中可以将您所做的实验视为随机样本。然后,常客给您一个关于虚拟实验的间接答案,而不是您真正想针对特定实验提出的问题的直接答案。

从本质上讲,这是语言问题,人口的常识性定义根本不允许讨论参数的真实值在特定间隔内的概率。这并不意味着常客统计数据是不好的或没有用,但是了解限制很重要。

关于主要更新

我不确定我们可以说“在计算95%的置信区间之前,我们有95%的概率计算出的区间将覆盖真实参数”。在常客框架内。这里有一个隐含的推论,参数的真实值位于通过某些特定方法构造的置信区间内的长期运行频率,也就是参数的真实值位于特定样本的置信区间内的概率我们将要使用的数据。这是一个完全合理的推论,但它是贝叶斯推论,而不是常客推论,因为参数的真实值位于我们为特定数据样本构造的置信区间内的概率没有长期频率,因为我们只有一个数据样本。

但是,我们可以“做出某种非频率论者的论据,即我们可以确定95%的真实参数位于[a,b]中”,这正是贝叶斯可信区间的意思,对于许多问题,贝叶斯可信区间也是如此。与常客的可信区间完全一致。

“我不想就概率论进行辩论”,可悲的是,这是不可避免的,原因是您不能为统计的真实值是否在置信区间内分配频繁概率,这是直接的结果的概率论哲学。频繁出现的人只能将概率分配给可以长期运行的事物,因为这是频繁出现的人在其哲学中定义概率的方式。这并没有使常客主义的哲学错误,但是重要的是要理解概率定义所强加的界限。

“在我输入密码并看到间隔之前(但是在计算机已经计算出该间隔之后),该间隔包含真实参数的可能性是多少?它是95%,这部分内容不值得商debate:”是不正确的,或者至少在做出这样的陈述时,您偏离了常客主义统计的框架,并做出了贝叶斯推断,该陈述涉及陈述真实性的合理程度,而不是长期的频率。但是,正如我之前所说,这是一个完全合理和自然的推论。

在输入密码之前或之后,什么都没有改变,因为可以为所有事件分配频繁发生的可能性。由于我们经常想问一些关于特定事件的陈述的合理性程度,所以经常性统计可能是违反直觉的,但这不在经常性统计的范围之内,这是对经常性程序的大多数误解的根源。


2
是的,这很重要,我要说的是,第二个陈述实际上并不是关于这种特殊硬币的陈述。这是关于虚构的硬币的陈述,大多数人错误地将其解释为关于我们特定硬币的陈述。但是,在进行这一飞跃时,我们将贝叶斯直觉应用于概率,而忽略了实际的置信区间。只要我们摆脱对概率的常识性定义,就可以为硬币状态分配概率没有问题。
迪克兰有袋动物

2
明确地说,说“想象时间的许多独立实例;您期望其中的一半会产生头脑”是完全正确的常客性推理。但是,从那里转到“因此该特殊硬币也为0.5的概率”并不是因为概率不会应用于运行频率不长的事物,因为它只能发生一次且只有一次。贝叶斯推理是完全合理的贝叶斯推理,因为贝叶斯概率是关于命题合理性的陈述(可以基于总体中的长期频率)。
Dikran有袋动物2011年

1
他对这两个问题的回答实际上将是关于假想的硬币数量的比例的说明。但这很可能不会明确,因为人们通常喜欢提供帮助(间接答案通常不那么有帮助),而且常客的统计数据与直觉相反,常客可能会绕过这一点以避免混乱。如果固定下来就某个特定的变动做出概率陈述,那么好的常客就会拒绝回答-它不在常客统计的范围之内。
Dikran有袋动物2011年

1
从本质上讲,常客不会真正回答您的问题,他会就掷硬币的数量发表声明,然后让您推断出在该特定掷硬币的情况下正面朝上的概率与隐性种群中所占比例相同。但这将是您的贝叶斯推断,而不是他的推断。
Dikran有袋动物2011年

1
@Aaron当然,您可能在很多事情上都说“概率是0或1”,但是这个答案绝对不会给我们带来任何好处(例如,如果我们要回答一个具体问题,即我们应该在游戏上下多少赌注,或者是否是否应该发射航天飞机)。此外,“可能发生”的事情是:(1)硬币落在正面,您将其遮盖;(2)硬币落在正面,而您将其遮盖;在许多“翻转和覆盖”试验的“虚构人群”中,约有50%的结果是您看到了脑袋。
艾略特

14

重大更新,重大新答案。让我尝试清楚地解决这一点,因为这是问题所在:

“如果您辩称“在看到间隔之后,概率的概念就不再有意义了”,那就好了,让我们对它确实有意义的概率进行解释。

概率规则不会改变,但是您的宇宙模型会改变。您是否愿意使用概率分布来量化对参数的先前信念?看到数据后更新该概率分布是否合理?如果您这样认为,则可以进行这样的语句。我的先验分布可以代表我对自然自然状态的不确定性,而不仅仅是众所周知的随机性 -也就是说,如果我对assign中的红球数量分配先验分布,这并不意味着我认为该数字红球是随机的。它是固定的,但我不确定。P(θ[L(X),U(X)]|X=x)

有几个人,包括我刚才说这个,但如果你不愿意叫一个随机变量,那么语句不有意义的。如果我是常客,我会将视为固定数量,并且无法将概率分布归因于它。为什么?因为它是固定的,所以我对概率的解释是根据长期频率。ur中的红球数量从未改变。是是。如果我拿出几个球,那么我会有一个随机样本。我可以问一下,如果我拿一堆随机样本会发生什么情况?也就是说,我可以谈论P θ ∈ [ 大号X ù X ] | X = X θ θ θ P θ ∈ [ 大号X ù X ] θP(θ[L(X),U(X)]|X=x)θθθP(θ[L(X),U(X)]) 因为间隔取决于样本,所以样本是随机的。

但是你不想要那样。您想要 -我用观察到的(现在是固定的)样本构造的间隔包含参数的概率是多少。但是,一旦您以为条件,那么对我来说,这是一个常客,就没有什么随机性了,不会以任何有意义的方式有意义。X = X P θ ∈ [ 大号X ù X ] | X = X P(θ[L(X),U(X)]|X=x)X=xP(θ[L(X),U(X)]|X=x)

对)进行陈述的唯一原则方法(IMO)是量化我们对具有(先前)概率分布的参数的不确定性,并且通过贝叶斯定理用新信息更新该分布。我所看到的所有其他方法都是对贝叶斯的低迷近似。从常客的角度来看,您当然不能做到这一点。P(θ[L(X),U(X)]|X=x)

这并不是说您不能从贝叶斯的角度评估传统的频度程序(例如,置信区间通常是统一先验条件下的可信区间),或者从频度的角度评估贝叶斯估计量/可信区间是没有价值的(我认为可以)。并不是说古典/频率统计是无用的,因为事实并非如此。这就是它的本质,我们不应该尝试使其更多。

您认为给参数一个先验分布来表示您对宇宙的信念是否合理?从您的评论看来,您确实做到了;根据我的经验,大多数人都会同意(这是我在评论@G。Jay Kerns的答案时开的一个小玩笑)。如果是这样,贝叶斯范式提供了一种逻辑,连贯的方式来表达关于陈述。经常性的方法根本没有。P(θ[L(X),U(X)]|X=x)


1
(+1)做得很好,再次出现在死点上。

+1与上述评论相同(请参阅G. Jay Kerns的回答);这真的很有帮助。
Elliott

赏金schmounty :)很高兴您发现它有所帮助。
JMS

11

好,现在您在说话!我投票删除了我以前的答案,因为这个主要更新的问题没有意义。

在这个新的,经过更新的问题中,使用根据传统的常客主义解释得出的具有95%置信区间的计算机,这是对问题的答案:

  1. 没有。
  2. 没有。
  3. 一旦观察到间隔,它就不再是随机的,并且不会改变。(也许间隔是。)但是也不改变,也从未改变。(也许是)概率从95%变为0%,因为计算机计算的间隔的95%覆盖了7,但是间隔 100%没有覆盖7。θ θ = 7 [ 1 3 ][1,3]θθ=7[1,3]

(顺便说一句,在现实世界中,实验者永远不知道,这意味着实验者永远无法知道覆盖的真实概率是零还是1。(S)他只能再加上实验者可以说计算机的间隔的95%覆盖,但是我们已经知道了。[ 1 3 ] θ θθ=7[1,3]θθ

您所提问题的精髓总是使您回想起观察者的知识,以及这与之间的关系。那(大概)就是为什么您谈论密码,关于计算机计算间隔而您还没有看到它的原因,等等。我已经在您对答案的评论中看到,似乎必须/不愿意承诺为0或1,毕竟,为什么我们不能相信它是87%或甚至99%? ?但这恰恰是常客制框架的力量-同时也是阿喀琉斯之heel:观察者的主观知识/信念是无关紧要的。重要的是长期的相对频率。仅此而已。15 / 16θ15/16

作为最后的顺便说一句:如果您更改了对概率的解释(您本来选择不对这个问题做),那么新的答案是:

  1. 是。
  2. 是。
  3. 概率发生变化是因为概率=主观知识或信念程度,并且观察者的知识发生了变化。我们用先验/后验分布表示知识,并且随着新信息的获得,前者会演变成后者(通过贝叶斯定律)。

(但是,为全面披露,您描述的设置与主观解释不太吻合。例如,在打开计算机之前,我们通常有95%的事先可信间隔,然后我们将其启动并使用计算机提供我们得出的后可信区间为95%,通常比前一个更窄。)


再次!:) 做得好。
JMS

3
我只想指出,贝叶斯概率解释并不一定是主观的,因此这并不是频繁论者方法的真正优势。在客观贝叶斯方法解决“硬币着陆平视问题的可能性”的情况下,使用无信息的先验根本不涉及主观性。经常采用的方法的真正优势在于诸如质量控制之类的问题,这是谈论重复试验和长期运行的频率很自然的问题。仅当您对特定事件提出疑问时,它才有困难。
Dikran有袋动物2011年

@JMS,谢谢。@Dikran,很难在计算机屏幕上的一个小盒子中用544个字符来谈论它。简要地说:我同意您的看法,即“贝叶斯”一词与“主观”不是同义词。而且,没有办法确定这两种方法真正的真正优势所在。底线:我们都可以就长期的相对频率达成共识,但通常情况下,您的后验与我的不同。

2
@Dikran有袋动物你说的很对。我只补充说,一旦我们将玩具问题转移到实际的应用模型中,通常情况下,真正重要的主观性是通过我们如何指定可能性来确定的,而不一定是先验分布本身(这些观察是否真的可以互换?高斯?等等)。这样,在基于模型的统计数据的很大一部分中就建立了主观性,贝叶斯主义和常客主义都如此。
JMS

+1感谢您的优美回答。这无疑是值得的,但是为了避免政治化,我最终遭到了投票。
Elliott

6

我将投入两分钱(也许会重新分配一些以前的答案)。对于常客来说,置信区间本身实质上是一个二维随机变量:如果您将实验重做一千亿次,则您估计的置信区间(即:每次根据新发现的数据进行计算)每次都会有所不同。这样,间隔的两个边界是随机变量。

因此,95%CI意味着(在您所有导致该CI的假设都是正确的前提下)保证(在95%的情况下)这组随机变量将包含真实值(非常频繁的表达)。

您可以轻松地从标准正态分布中计算100次抽签平均值的置信区间。然后,如果从该标准正态分布中绘制10000乘以100的值,并且每次计算均值的置信区间,则实际上您会看到0大约在9500倍左右。

你事实上已经创造了一个置信区间只有一次(从实际数据)确实降低了真值中的概率区间为0或1,但它不会改变置信区间的概率为包含真实值的随机变量。

因此,最重要的是:包含真实值(95%)的任何(平均)95%置信区间的概率不变,并且包含真实值的特定区间(CI或其他)的概率也不变(0或1)。计算机知道但您实际上不知道的间隔的概率实际上是0或1(因为它是一个特定的间隔),但是由于您不知道该间隔(并且以惯常的方式,因此无法重新计算该间隔)从相同的数据再次无限次地),您所要做的就是任何间隔的概率。


有趣的旁注:此站点的拼写检查器发现“常来者”一词值得下划线。这是贝叶斯人秘密掌握的网站吗?哦,我想不是,因为贝叶斯人都有自己的卷曲下划线:-)
Nick Sabbe 2011年

4

置信区间未指定“真实参数位于区间中的概率”的原因是,一旦指定了区间,参数要么位于其中,要么不位于其中。但是,例如对于95%的置信区间,您有95%的机会创建确实包含该值的置信区间。这是一个很难理解的概念,因此我可能不太清楚。有关更多说明,请参见http://frank.itlab.us/datamodel/node39.html


2
假设您对计算机进行编程以计算置信区间,但是您不查看输出。在看到输出之前,您知道间隔有95%的机会包含正确的参数(就像在看到硬币翻转的结果之前一样,您知道有50%的正面机会)。假设您首先不知道正确的参数,那么随后查看输出将以何种方式改变此概率(我同意查看硬币翻转的结果会将正面的概率从50%变为任一或0)?
Elliott

此外,虽然我同意有区别,但我想知道我上面的“论据”表明它们是同一回事有什么问题。
Elliott

2
@Elliott您的问题似乎与这个比喻相同:您掷出一枚公平的硬币。因此,正面的可能性为50%。现在您看一下硬币,它是正面的。这将以何种方式改变正面概率?答案是没有,因为概率是指抛硬币的过程,而不是结果。在我看来,您所引用的反例以类似的方式工作:该过程可能有50%的机会覆盖该参数,但是在此之后,有可能验证该参数是否确实被覆盖。所以呢?
ub

我不是在谈论改变公平的硬币将成为正面的可能性。相反,我是在谈论改变这种特殊硬币成为正面的可能性。在我将它翻转之后,在我看过它之前,我会认为所讨论的概率为50%,因为大约有一半这样的情况涉及抬头的硬币。另一方面,在我看过并看到正面的情况后,其中100%的情况涉及一个正面朝上的硬币(当我看着硬币而看不见正面时,正面朝上的情况就被消除了)。
Elliott

我同意,事后,可以验证该参数已被覆盖。我的回答是“那又怎样?” 是“所以我上面的论点(在原始问题中)肯定是错误的,我想知道这是怎么回事”。
Elliott

4

我认为,常客不能说某个特定样本的统计值的真实(填充)值存在于置信区间内的任何可能性。它可以是,也可以不是,但是对于特定事件,没有长期运行的频率,只是重复执行统计过程会得到的事件总数。这就是为什么我们必须坚持这样的说法,例如“如此构造的95%的置信区间将包含统计的真实值”,而不是“只有ap%的概率,真实值位于为此特定值计算的置信区间内样品”。对于任何p值都是如此,如果按照概率论的实际定义来简单地做到这一点是不可能的。贝叶斯可以使用可信区间来做出这样的声明。


3

E[a,b]

E~(L(X),U(X))

编辑:@G。杰伊·科恩斯(Jay Kerns)提出的论点比我更好,而且输入速度更快,所以可能只是继续:)


[a,b]

2
|

我不知道,您的位置不错。:-)

2

E[a,b]ECCP(E|C)=P(E)P(E|C)=P(E)

P(E|C)=1P(E|C)=0


考虑到我将C定义为该特定间隔[a,b]包含真实参数的事件,因此我不确定我是否同意E和C / C'是独立的:知道C的出现保证了E的出现。
Elliott

但是C是一个随机变量!在一切都已经发生之后,您正在改变所有这些事件的定义。换句话说,如果将C定义为该特定事件,则C不再是置信区间。
raegtin 2011年

2
问题是,如果C是该间隔在此实验的特定运行中包含真实参数的事件,则其运行频率不会很高(该特定运行只能发生一次),因此您无法分配一个常客的可能性。这就是为什么频繁性置信区间的定义是根据大量重复实验得出的。您似乎在将贝叶斯推理应用于常客设置,并且概率定义不匹配。
Dikran有袋动物2011年

这是另一种查看方式。您似乎正在执行以下操作:运行计算以获取置信区间[a,b]。将C定义为该特定置信区间[a,b]包含true参数的事件。也将E定义为该特定间隔[a,b]包含true参数的事件。因此,E和C是同一事件!
raegtin 2011年

那就是你实际上在做的。似乎您认为自己正在执行以下操作(不是这样做):运行计算1以获取间隔[a,b]。将E定义为该特定间隔[a,b]包含true参数的事件。接下来,忽略计算#1,并将C定义为任何其他计算出的间隔[a',b']包含true参数的事件。在这种情况下,E和C是独立的。
raegtin 2011年

2

这里有太多冗长的解释,以至于我没有时间阅读它们。但是我认为基本问题的答案可能简短而甜美。它是无条件的概率之间的差异。收集数据之前的1-alpha概率是定义明确的过程将包含参数的概率。收集数据并知道生成的特定间隔后,该间隔是固定的,因此由于参数为常数,因此条件概率为0或1。但是由于我们甚至不知道参数的实际值收集数据后,我们不知道它是哪个值。

迈克尔·切尔尼克(Michael Chernick)对帖子的扩展复制了表格评论:

有一个病理上的例外,可以称为完美估计。假设我们有一个由X(n)= pX(n-1)+ en给出的一阶自回归过程。它是平稳的,因此我们知道p不是1或-1且绝对值<1。现在en是独立的均匀分布且具有混合分布,存在一个正概率q,en = 0

有一个病理上的例外,可以称为完美估计。假设我们有一个由X(n)= pX(n-1)+ en给出的一阶自回归过程。它是平稳的,因此我们知道p不是1或-1且绝对值<1。

现在,en是独立均匀分布的,具有混合分布,存在一个正概率q,其中en = 0,并且具有1-q的概率,它具有绝对连续的分布(例如,密度在远离0的区间内为非零。依次从时间序列中收集数据,对于每个连续的值对,通过X(i)/ X(i-1)估计p,现在,当ei = 0时,比率将精确等于p。

因为q大于0最终该比率将重复一个值,并且该值必须是参数p的精确值,因为如果不是ei的值不为0,则将以0和ei / x(i -1)不会重复。

因此,顺序停止规则是采样直到比率完全重复,然后将重复值用作p的估计。由于恰好是p,所以您构建的任何以该估计为中心的区间都具有包含真实参数的概率1。尽管这是一个不切实际的病理示例,但确实存在具有随机分布的平稳随机过程,我们需要误差分布的属性


2
您是否考虑过将这几条评论中描述的示例附加到您的答案中?
2012年

@Michael我将第二次对Macro进行评论。请注意,评论通常被认为是与其他用户进行交互的一种方式(例如,在请求澄清等时),在任何情况下,有时都将其视为“ Stack Exchange中三等公民 ”。但是,在我们最近的交流之后,我将让您决定如何进行这一系列的评论。此注释适用于此处找到的另一系列注释。
chl 2012年

我不会在评论中添加评论,因为似乎有一种政策会否决答案,因为当有人判断答案没有真正回答问题时,尤其是其中有很多讨论。因此,答案就是给出答案,而评论要放在评论之下。我的评论往往超出了字符数限制,因此我使用了一些。
Michael Chernick

@MichaelChernick没有此类政策,因此,我已将您的评论合并到帖子中。

1
@MichaelChernick,我已经定期在该网站上发布了大约一年的时间,而且我从未听到有人暗示主持人压抑或该网站的规则令人困惑。您遇到的问题:您的帖子是FAQ中明确讨论的内容。
2012年

1

关于许多可能仍然有用的问题和回答的两种观察。

造成混淆的部分原因是掩盖了概率论的一些更深层次的数学,顺便说一句,直到1940年代才在牢固的数学基础上扎根。它进入构成样本空间,概率空间等的内容。

首先,您已经说过,在掷硬币后我们知道如果正面朝上,它没有朝上的可能性为0%。在这一点上,谈论概率是没有意义的。发生了什么事,我们知道。概率是关于未来的未知,而不是当前的已知。

作为零概率真正含义的一个小的推论,请考虑一下:我们假设一个合理的数字有0.5的正面出现概率和0.5的正面出现概率。这意味着它有100%的机会出现正面反面,因为这些结果是MECE(互斥和完全穷举)。但是,它的正面反面的变化只有零%:我们对“ 正面”和“ 反面”的看法是,它们是互斥的。因此,这种机会的可能性为零,因为我们认为(或定义)“抛硬币”的方式是不可能的。折腾前后是不可能的。

作为进一步的推论,任何不可能的事情,按照定义,都是不可能的。在现实世界中,我讨厌律师问到“您是否有可能签署并忘记了这份文件?” 因为根据问题的性质,答案始终是“是”。就此而言,对以下问题的回答也是“是”:“是否有可能通过去物质化将您运送到Remulak 4号行星,然后强迫他做一些事而又没有记忆就将其运回去?”。可能性可能很小-但并非不可能。在我们通常的概率概念中,当我们谈论抛硬币时,它可能浮出水面。它可能会出现尾巴;它甚至可能直立,或者(例如,如果我们在被吸毒并进入轨道时被误入太空船)永远漂浮在空中。但是,在抛掷之前或之后, 同时出现尾巴:它们是实验样本空间中的互斥结果(查找“概率样本空间”和“ sigma-代数”)。

其次,在所有关于置信区间的贝叶斯/频率论哲学上,如果人们充当频率论者,则确实与频率有关。因此,当我们说采样和估计均值的置信区间为95%时,我们并不是说我们有95%的把握“真实”值位于边界之间。我们说的是,如果我们可以一次又一次地重复此实验,那么95%的时间将发现平均值确实在边界之间。但是,当我们一次运行时,我们的想法是捷径说“我们有95%的把握我们是对的”。

最后,不要忘记基于实验的假设检验的标准设置。如果我们想知道植物生长激素是否能使植物生长更快,也许我们首先确定生长6个月后番茄的平均大小。然后,我们重复上述步骤,但使用激素,并获得平均大小。我们的零假设是“激素没有工作”,而我们测试的是。但是,如果经过测试的植物平均具有99%的置信度,则意味着“由于植物和我们称量的精确度,总会有随机变化,但可以解释这一点的随机量将少于一时间一百分。”


1

该问题的特征可能是先验概率和后验概率的混淆,或者可能是不知道某些随机变量的联合分布的不满。

调理

n1nXYXYP(X=xY=y)=1/(n(n1))x,yN:={1,,n}xyP(X=x)=1/nP(Y=x)=1/nxN

tP(X=x)=1/nxNxNX=xP(X=x|Y=t)=P(X=xY=t)/P(Y=t)xt1/(n1)x=t0X=xY=tX=xX=xY=tP(X=x)=P(Y=x)=1/nxN

不以证据为条件就意味着无视证据。但是,我们只能以概率模型中可表达的条件为条件。在我们的示例中,有两个来自from的球,我们不能以天气或今天的感觉为条件。如果我们有理由相信这是与实验相关的证据,则必须首先更改我们的模型,以便允许我们将此证据表示为正式事件。

CC=1X<YP(C=1)=1/2tP(C=1|Y=t)=(t1)/(n1)P(C=1|Y=1)=0C=1P(C=1|Y=n)=1C=1P(C=1)=1/2

置信区间

X=(X1,,Xn)n(l,u)γXluRnθRP(l(X)θu(X))γ

C(l,u)C=1l(X)θu(X)P(C=1)γ

x=(x1,,xn)RnxiXiiC=1δ:=P(C=1|X=x)01(C=1X=x)((l(x)θu(x))X=x)l(x)θu(x)δ=0l(x)θu(x)X=xδ=1l(x)u(x)xδ{0,1}

P(C=1)γC=1x[l(x),u(x)][l(x),u(x)]θγ,则意味着承认这一证据,而同时又忽略了它。

了解更多,了解更少

δXYxRP(X=x)P(Y=x)P(X=xY=y)x,yR。假定该实验的结果应报告为随机向量,也就是说,结果应报告为实数对。(X,Y)

让我们进行基础实验,并假设我们知道发生了,而的值仍然未知。这不会更改任何。但是,说实验的结果是的形式是有问题的,其中,并且每个特定实数成为的第一分量的概率这对是。这是有问题的,因为以这种方式,我们将承认证据 而同时忽略它。我们承认证据Y=7XP(X=x)x(x,7)xRxP(X=x)Y=7Y=7通过报告该对的第二部分为。我们通过使用先验概率忽略它,实际上,我们对的置信度现在应该是 ,很遗憾我们无法计算。7P(X=x)X=xP(X=x|Y=7)=P(X=xY=7)/P(Y=7)

从某种意义上说,对更多了解可能会迫使我们对少说一些。但是据我所知这就是事实。YX


0

如果我说尼克斯过去在给定的某场比赛中在xbar-2sd(x)和xbar + 2sd(x)之​​间得分的概率约为0.95,这是合理的说法,因为它对篮球得分的分布有一些特殊的分布假设。如果我在给定游戏样本的情况下收集有关分数的数据并计算该间隔,则它们在过去某个给定日期在该间隔中得分的概率显然为零或一,您可以在游戏结果中进行搜索以找出答案。它对常客保持非零或一个概率的唯一概念来自重复采样,而特定样本的区间估计的实现是发生或未给出该样本的区间估计的魔点。 。这不是您输入密码的关键,

这就是Dikran的观点,我已经投票支持他的答案。重复样本不在考虑范围之内的点是在常例范式中非离散概率变得不可获得的点,而不是如上例中那样键入密码,或者在我的示例中用谷歌搜索结果时尼克斯队的比赛,但当您的样本数= 1的时候。


0

造型

正确的过程是:(1)将情况建模为概率空间;(2)定义一个事件的关注点;(3)确定其概率。可以通过随机变量(即上的函数)来指定事件(可测量的函数,但这里不必担心)。空间可以由一个或多个随机变量及其联合分布隐式给出。S=(Ω,Σ,P)EΣP(E)ESS

步骤(1)可能会有一些余地。有时可以通过比较某些事件的概率与我们直观期望的概率来测试建模的适当性。特别是,查看某些边际或条件概率可能有助于您了解建模的适当程度。

有时,建模或其中的一部分已经完成,我们可以在此基础上进行构建。在统计数据(在某一点),我们通常都已经给定的实值随机变量 IID与固定但未知。X1,,XnDist(θ)θR

置信区间估计器

置信度下的置信区间估计器(CIE)是具有域的一对函数和, 使得,写。我更喜欢用“置信区间估计器 ”一词来强调,重要的是功能及其功能特性。 和都是隐式给定样本空间上的函数,也就是说,它们是随机变量。给定一个观测值,说到γLRRnP(L(X)θR(X))γX=(X1,,Xn)L(X)R(X)xRnL(x)θR(x)没有意义,因为这不是事件,因为它不包含任何随机变量。

首选项

假设一个可能已经从一组门票,其中一个抽出一张彩票之间选择已经从一组,其中一个抽出部分由中奖彩票的,以及一个成分由中奖彩票的,并假定。两张票都已经被抽出,但是没有人透露。当然,在所有其他条件相同的情况下,我们宁愿再买第二张票,因为它γ1γ2γ1<γ2成为中奖彩票的机率要比第一张彩票高出。基于生成观察值的随机过程的概率属性,对不同观察值(本示例中为两张票证)的偏好很好。请注意,我们并不是说任何彩票都有较高的可能性成为中奖彩票。如果我们这样说,那么从口语意义上讲就是“概率”,这可能意味着任何意义,因此最好在这里避免。

对于不同置信度的CIE,其他所有条件通常都不相等,因为较高的置信度将使CIE传递的间隔趋于更宽。因此,在这种情况下,我们甚至无法给出偏好。我们不能说我们通常更喜欢使用具有较高置信度的CIE计算的间隔。但是,如果其他所有条件都相等,我们希望使用具有最高可用置信度的CIE生成的间隔。例如,如果我们要在一个以置信水平的CIE输出的间隔和一个从该长度的所有间隔集中随机绘制的相同长度的间隔之间进行选择,我们肯定会更喜欢前者。0.95

简单先验示例

让我们考虑一个例子,其中扩展了概率建模以使我们对随机变量感兴趣的参数成为可能。假设是具有离散随机变量 ,并且对于每个,条件上的知识,我们有 IID设构成为在所述正态分布的均值(古典)CIE置信水平,即是,对于每个,我们有θP(θ=0)=P(θ=1)=1/2ϑRθ=ϑX1,,XnN(ϑ,1)L,RγϑRP(L(X)ϑR(X)|θ=ϑ)γ,表示。P(L(X)θR(X))γ

假设我们观察到一个具体值。现在,位于和指定的间隔内的概率是多少,即?表示独立的,正态分布的随机变量的联合PDF,均值和标准偏差。使用贝叶斯规则和总概率定律进行的计算显示: xRn(X1,,Xn)θL(x)R(x)P(L(x)θR(x)|X=x)fμnμσ=1

P(L(x)θR(x)|X=x)={f0(x)f0(x)+f1(x)if L(x)0R(x)<1f1(x)f0(x)+f1(x)if 0<L(x)1R(x)1if L(x)0 and 1R(x)0else
值得注意的是,该概率与置信度完全无关!因此,即使在CIE的输出中包含概率的问题是有意义的,也就是说,如果是我们概率模型中的事件,则其概率通常不是,但可以完全不同。γθL(X)θR(X)γ

实际上,一旦我们就先验达成一致(例如的简单离散分布)并且我们有了一个观测值,那么对进行条件设置可能比查看CIE的输出更为有益。精确地,对于我们得到: X X { μ 0μ 1 } = { 0 1 } P θ = μ 0 | X = X = ˚F μ 0X θxx{μ0,μ1}={0,1}

P(θ=μ0|X=x)=fμ0(x)fμ0(x)+fμ1(x)

0

如果我们可以说“真实参数位于此置信区间内的概率”,那么我们就不会考虑样本的大小。无论样本多大,只要平均值相同,置信区间都将同样宽。但是,当我们说“如果我重复100次,那么我希望在95种情况下,真实参数位于区间内”时,我们正在考虑样本量的大小,以及我们如何确定估计值。样本量越大,均值估计的方差越小。因此,它不会有太大的变化,并且当我们重复执行该过程100次时,不需要很大的时间间隔即可确保在95种情况下,真正的参数都在该时间间隔内。


请记住,置信区间是一个经常性的概念。
迈克尔·切尔尼克
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.