在常客统计中,置信区间为95%是一个区间生成过程,如果重复无数次,则95%的时间将包含真实参数。为什么这有用?
置信区间常常被误解。它们不是我们可以95%确定参数所在的间隔(除非您使用的是类似的贝叶斯可信度间隔)。置信区间对我来说就像个诱饵和开关。
我可以想到的一个用例是提供不能拒绝参数为该值的原假设的值范围。p值不能提供此信息,但是更好吗?不会这么误导?
简而言之:为什么我们需要置信区间?如果正确解释,它们如何有用?
在常客统计中,置信区间为95%是一个区间生成过程,如果重复无数次,则95%的时间将包含真实参数。为什么这有用?
置信区间常常被误解。它们不是我们可以95%确定参数所在的间隔(除非您使用的是类似的贝叶斯可信度间隔)。置信区间对我来说就像个诱饵和开关。
我可以想到的一个用例是提供不能拒绝参数为该值的原假设的值范围。p值不能提供此信息,但是更好吗?不会这么误导?
简而言之:为什么我们需要置信区间?如果正确解释,它们如何有用?
Answers:
只要将置信区间视为随机数(即,从将数据视为一组我们尚未看到的随机变量的角度来看),我们的确可以对它做出有用的概率陈述。具体来说,假设您对参数在级别处有一个置信区间,并且该区间的边界为。然后我们可以说:
移出频繁主义者范式,对任何先验分布的进行边际化,得出相应的(较弱)边际概率结果:
一旦通过将数据固定为来确定置信区间的边界,我们就不再对这种概率陈述感兴趣,因为现在我们已经固定了数据。但是,如果将置信区间视为一个随机区间,那么我们确实可以做出该概率表述,即,概率为,参数将落入(随机)区间内。 1 - α θ
在常客统计中,概率陈述是有关无限重复试验中相对频率的陈述。但是,这对于频繁性范式中的每个概率陈述都是正确的,因此,如果您反对相对频率陈述,那不是针对置信区间的反对。如果我们移出了频繁主义者范式,那么我们可以合理地说一个置信区间包含了具有期望概率的目标参数,只要我们稍微说出该概率表述(即,不以数据为条件),就可以处理该置信区间在随机意义上。
我不了解其他人,但是在我看来,这是一个非常有力的概率结果,并且是这种间隔形式的合理理由。我本人更偏爱贝叶斯方法,但是支持置信区间(在其随机意义上)的概率结果是不容忽视的有力结果。
我同意上面的@Ben,我想提供一个简单的例子,说明在相同情况下贝叶斯区间与频率区间的价值所在。
想象一家工厂有平行的装配线。停止生产线的成本很高,同时,他们希望生产优质的产品。随着时间的流逝,他们同时关注假阳性和假阴性。对于工厂来说,这是一个平均过程:功率和对误报的保证保护至关重要。置信区间和公差区间对工厂很重要。但是,机器将不对齐,即,并且检测设备将观察到虚假事件。平均结果很重要,而特定结果是操作细节。
与此相反的是,单个客户购买单个产品或多个产品。他们不在乎装配线的重复特性。他们关心购买的一种产品。让我们假设客户是NASA,他们需要产品满足规格,例如 他们不在乎未购买零件的质量。他们需要某种形式的贝叶斯间隔。此外,一次失败可能会杀死许多宇航员,并造成数十亿美元的损失。他们需要知道购买的每个零件都符合规格。平均将是致命的。对于土星V型火箭,在阿波罗飞行期间,百分之一的缺陷率将意味着10,000个缺陷零件。他们要求在所有任务中使用0%的缺陷。
当您像工厂一样在样本空间中工作时,您会担心会有一个置信区间。它正在创建样本空间。当您在参数空间中工作时,您会担心可信的时间间隔,就像客户会做的那样。如果您不关心自己外部的观察结果,那么您就是贝叶斯主义者。如果您确实关心那些看不见但可以看到的样本,那么您就是一个常客。
您是否关心长期平均或特定事件?
请注意,在严格的置信区间的定义,它是可能的,他们是完全没有意义的,即不提供信息有关的感兴趣的参数。但是,实际上,它们通常非常有意义。
作为无意义置信区间的示例,假设我有一个过程,其中95%的时间产生,而5%的时间产生[, ],其中是任意一对随机变量,使得。然后,这是一个至少在95%的时间中捕获任何概率的过程,因此从技术上讲,它是针对任何概率的有效置信区间。但是,如果我告诉我对于给定的,此过程产生的间隔为,则您应该意识到您对了解并不多。 ü 中号我Ñ < ü 中号一个X [ 0.01 ,0.011 ] p p
另一方面,大多数置信区间是以更有用的方式构造的。例如,如果我告诉您它是使用Wald Interval过程创建的,那么我们知道
其中是标准错误。这是关于如何一个非常有意义的语句涉及到。将其转换为置信区间只是对不熟悉正态分布的人简化此结果的尝试。这还不仅仅是说它只是针对不了解正态分布的人们的工具;例如,百分位数引导程序是一种工具,用于在该误差的分布可能为非高斯分布时汇总估计器和true参数之间的误差。p p
置信区间不仅有用,而且在物理等某些领域也很重要。不幸的是,关于CI的最大噪音来自贝叶斯主义者,他们经常在与社会“科学”和其他类似科学的学科的背景下陷入与频率论者的假辩论中。
假设我测量物理量,例如电费。我将始终为它提供值不确定性的量度,通常是标准偏差。由于在物理学中错误通常是高斯的,因此直接将其转换为CI。但是,当误差不是高斯误差时,它会变得有些复杂,需要对某些积分进行评估等。通常情况下,没有什么太深奥的。
以下是有关粒子物理学中CI的简要介绍和定义:
关于在大量重复实验中该间隔包含参数真实值的时间分数的定量说明
请注意,在物理学中,“重复实验”通常具有字面意义:假设您实际上可以在论文中重复实验,并且实际上会观察到该分数。因此,CI对您几乎具有字面意义,并且只是表达有关测量不确定度信息的一种方式。这不是思想实验,不是主观意见,不是您或我对可能性的感受等。这是您从实验中设计出来的,并且在重现您的实验时我应该观察到。
该线索已迅速转移到“频频主义者”与“贝叶斯主义者”的辩论中,这很难解决。两种方法中的数学都是可靠的,因此它总是归结于哲学偏好。频繁性的将概率解释为事件相对频率的极限的解释是由强大的大数定律证明的。无论您对概率的首选解释如何,事件的相对频率都将以概率1收敛到其概率。
与贝叶斯可信区间相比,频繁置信区间确实难以解释。通过将未知数量视为随机变量,贝叶斯可以断言一个区间以一定概率包含该数量。经常有人拒绝将某些量视为随机变量,并且仅包含常量的任何方程式只能是对或错。因此,在估计未知常数时,常客必须将它们与RANDOM间隔绑定以完全涉及概率。频繁使用的方法不是一个间隔以某个概率包含一个随机变量,而是生成了许多不同的可能间隔,其中一些包含未知常数。如果覆盖率相当高,则可以断言特定间隔包含未知常数(注意,不是“
贝叶斯主义者会像信念主义者那样对信念的飞跃感到厌恶,就像频率论者对将任何未知数量视为随机变量的看法一样。实际上,常客主义的内曼建构方法暴露了这种信念飞跃的尴尬问题。在没有积极预防的情况下(一种方法,请参见Feldman和Cousins,1997年),罕见的结果可能会产生分布参数的EMPTY置信区间。这样的信仰飞跃将是非常不合理的!我已经看到一些贝叶斯人使用该示例来模仿常客方法,而常客通常会回答“好吧,我在大多数时间仍然会获得正确的间隔,并且没有做出错误的假设”。我要指出的是,贝叶斯/频繁主义者的僵局对大多数使用其方法的人并不重要。