置信区间有用吗?


11

在常客统计中,置信区间为95%是一个区间生成过程,如果重复无数次,则95%的时间将包含真实参数。为什么这有用?

置信区间常常被误解。它们不是我们可以95%确定参数所在的间隔(除非您使用的是类似的贝叶斯可信度间隔)。置信区间对我来说就像个诱饵和开关。

我可以想到的一个用例是提供不能拒绝参数为该值的原假设的值范围。p值不能提供此信息,但是更好吗?不会这么误导?

简而言之:为什么我们需要置信区间?如果正确解释,它们如何有用?



贝叶斯可信区间既不是间隔,我们可以有95%的某些参数是英寸
塞克图斯经验派

@MartijnWeterings:除非您对之前的工作有100%的把握。
西安,

@西安该作品时的参数为100%肯定要合理地认为一个随机变量和实验就像是从一个共同的频率分布采样,即,使用贝叶斯规则为:没有明确的“先验”。对于被认为是固定的参数,它是不同的。然后,后验信念将要求您也“更新”和的旧联合频率分布。声称更新100%肯定的“先前信念”有点荒谬。P θ X P θ | X = P θ X / P X X θθP(θ,x)P(θ|x)=P(θ,x)/P(x)Xθ
Sextus Empiricus

Answers:


10

只要将置信区间视为随机数(即,从将数据视为一组我们尚未看到的随机变量的角度来看),我们的确可以对它做出有用的概率陈述。具体来说,假设您对参数在级别处有一个置信区间,并且该区间的边界为。然后我们可以说:1αθL(x)U(x)

P(L(X)θU(X)|θ)=1αfor all θΘ.

移出频繁主义者范式,对任何先验分布的进行边际化,得出相应的(较弱)边际概率结果:θ

P(L(X)θU(X))=1α.

一旦通过将数据固定为来确定置信区间的边界,我们就不再对这种概率陈述感兴趣,因为现在我们已经固定了数据。但是,如果将置信区间视为一个随机区间,那么我们确实可以做出该概率表述,即,概率为,参数将落入(随机)区间内。X=x 1 - α θ1αθ

在常客统计中,概率陈述是有关无限重复试验中相对频率的陈述。但是,这对于频繁性范式中的每个概率陈述都是正确的,因此,如果您反对相对频率陈述,那不是针对置信区间的反对。如果我们移出了频繁主义者范式,那么我们可以合理地说一个置信区间包含了具有期望概率的目标参数,只要我们稍微说出该概率表述(即,不以数据为条件),就可以处理该置信区间在随机意义上。

我不了解其他人,但是在我看来,这是一个非常有力的概率结果,并且是这种间隔形式的合理理由。我本人更偏爱贝叶斯方法,但是支持置信区间(在其随机意义上)的概率结果是不容忽视的有力结果。


1
“超越常人范式”不是问题所在吗?通常,我们需要一个间隔,该间隔以某种概率包含感兴趣参数的真实值。没有任何常客主义的分析能给我们带来这种启示,而将其隐含地重新解释为贝叶斯分析会导致误解。最好直接通过贝叶斯可信区间回答问题。在重复执行“实验”(例如质量控制)的置信区间中,有一些用途。
迪克兰有袋动物”,

这不是隐式地重新解释为贝叶斯(Bayesian)的问题(贝叶斯将以数据为条件来求后验)。答案仅显示了OP,我们可以对置信区间做出有用的概率陈述。至于对频繁主义者范式的更普遍的反对,这些都是很好的,但不是针对置信区间的反对。
本-恢复莫妮卡

1
从上面的概率陈述中可以看出,只要我们先验地看一下,我们就可以保证CI包含具有一定概率的参数。
本-恢复莫妮卡

1
如果您已经退出了常客主义范式,但没有转向贝叶斯框架,那么它是什么框架?我并不是对频繁性表示反对,我认为您应该使用最直接回答您实际要提出的问题的框架。信心和可信的间隔回答了不同的问题。
迪克兰有袋动物”,

1
@Dikran:概率陈述与书面陈述一样,是纯数学陈述。我真的看不到如何合理地反对这一点。
本-恢复莫妮卡

5

我同意上面的@Ben,我想提供一个简单的例子,说明在相同情况下贝叶斯区间与频率区间的价值所在。

想象一家工厂有平行的装配线。停止生产线的成本很高,同时,他们希望生产优质的产品。随着时间的流逝,他们同时关注假阳性和假阴性。对于工厂来说,这是一个平均过程:功率和对误报的保证保护至关重要。置信区间和公差区间对工厂很重要。但是,机器将不对齐,即,并且检测设备将观察到虚假事件。平均结果很重要,而特定结果是操作细节。θΘ

与此相反的是,单个客户购买单个产品或多个产品。他们不在乎装配线的重复特性。他们关心购买的一种产品。让我们假设客户是NASA,他们需要产品满足规格,例如 他们不在乎未购买零件的质量。他们需要某种形式的贝叶斯间隔。此外,一次失败可能会杀死许多宇航员,并造成数十亿美元的损失。他们需要知道购买的每个零件都符合规格。平均将是致命的。对于土星V型火箭,在阿波罗飞行期间,百分之一的缺陷率将意味着10,000个缺陷零件。他们要求在所有任务中使用0%的缺陷。γΓ.

当您像工厂一样在样本空间中工作时,您会担心会有一个置信区间。它正在创建样本空间。当您在参数空间中工作时,您会担心可信的时间间隔,就像客户会做的那样。如果您不关心自己外部的观察结果,那么您就是贝叶斯主义者。如果您确实关心那些看不见但可以看到的样本,那么您就是一个常客。

您是否关心长期平均或特定事件?


NASA是否真的根据贝叶斯间隔购买零件?我理解您的意思,但是他们确实做到了吗?
阿克萨卡尔州

@Aksakal我不知道。当然,朱兰(Juran)在美国国家航空航天局(NASA)上撰写了出色的质量保证工作,但我完全不记得是否讨论过测试过程,因为自阅读以来已有十多年了。我知道W爱德华兹·戴明(W Edwards Deming)反对置信区间,而采用可信区间,但这再次没有直接关系。我的猜测(我确实知道有人会知道,但目前问得不方便)是,他们使用惯常方法,因为这是大多数人所接受的训练。您使用锤子。
戴夫·哈里斯

不过是“锤子”吗?也许与工程中的方式有​​关?
阿克萨卡尔州

@Aksakal我没有资格对此发表意见。
戴夫·哈里斯

假设一家公司制造了零件,并且使用级复合假设检验,则对它们进行了错误测试:其中个无误通过且个失败。您可以给NASA一个合理的保证。可以意外通过测试(错误地认为没有错误)的最大产品量为。知道您售出了件商品,您就可以计算出实际售出的零件实际上不符合替代假设的最大概率。α ħ 0γ > Γ X ÿ Ñ αnαH0:γ>Γxynαγ ΓxγΓ
Sextus Empiricus

4

请注意,在严格的置信区间的定义,它可能的,他们是完全没有意义的,即不提供信息有关的感兴趣的参数。但是,实际上,它们通常非常有意义。

作为无意义置信区间的示例,假设我有一个过程,其中95%的时间产生,而5%的时间产生[, ],其中是任意一对随机变量,使得。然后,这是一个至少在95%的时间中捕获任何概率的过程,因此从技术上讲,它是针对任何概率的有效置信区间。但是,如果我告诉我对于给定的,此过程产生的间隔为,则您应该意识到您对了解并不多。[0,1]UminUmaxUmin,Umax ü 中号Ñ < ü 中号一个X [ 0.01 0.011 ] p pUmin<Umax[0.01,0.011]pp

另一方面,大多数置信区间是以更有用的方式构造的。例如,如果我告诉您它是使用Wald Interval过程创建的,那么我们知道

p^ ˙ N(p,se)

其中是标准错误。这是关于如何一个非常有意义的语句涉及到。将其转换为置信区间只是对不熟悉正态分布的人简化此结果的尝试。这还不仅仅是说它只是针对不了解正态分布的人们的工具;例如,百分位数引导程序是一种工具,用于在该误差的分布可能为非高斯分布时汇总估计器和true参数之间的误差。sep pp^p


2

置信区间不仅有用,而且在物理等某些领域也很重要。不幸的是,关于CI的最大噪音来自贝叶斯主义者,他们经常在与社会“科学”和其他类似科学的学科的背景下陷入与频率论者的假辩论中。

假设我测量物理量,例如电费。我将始终为它提供值不确定性的量度,通常是标准偏差。由于在物理学中错误通常是高斯的,因此直接将其转换为CI。但是,当误差不是高斯误差时,它会变得有些复杂,需要对某些积分进行评估等。通常情况下,没有什么太深奥的。

以下是有关粒子物理学中CI的简要介绍和定义:

关于在大量重复实验中该间隔包含参数真实值的时间分数的定量说明

请注意,在物理学中,“重复实验”通常具有字面意义:假设实际上可以在论文中重复实验,并且实际上会观察到该分数。因此,CI对您几乎具有字面意义,并且只是表达有关测量不确定度信息的一种方式。这不是思想实验,不是主观意见,不是您或我对可能性的感受等。这是您从实验中设计出来的,并且在重现您的实验时我应该观察到。


1

该线索已迅速转移到“频频主义者”与“贝叶斯主义者”的辩论中,这很难解决。两种方法中的数学都是可靠的,因此它总是归结于哲学偏好。频繁性的将概率解释为事件相对频率的极限的解释是由强大的大数定律证明的。无论您对概率的首选解释如何,事件的相对频率都将以概率1收敛到其概率。

与贝叶斯可信区间相比,频繁置信区间确实难以解释。通过将未知数量视为随机变量,贝叶斯可以断言一个区间以一定概率包含该数量。经常有人拒绝将某些量视为随机变量,并且仅包含常量的任何方程式只能是对或错。因此,在估计未知常数时,常客必须将它们与RANDOM间隔绑定以完全涉及概率。频繁使用的方​​法不是一个间隔以某个概率包含一个随机变量,而是生成了许多不同的可能间隔,其中一些包含未知常数。如果覆盖率相当高,则可以断言特定间隔包含未知常数(注意,不是“

贝叶斯主义者会像信念主义者那样对信念的飞跃感到厌恶,就像频率论者对将任何未知数量视为随机变量的看法一样。实际上,常客主义的内曼建构方法暴露了这种信念飞跃的尴尬问题。在没有积极预防的情况下(一种方法,请参见Feldman和Cousins,1997年),罕见的结果可能会产生分布参数的EMPTY置信区间。这样的信仰飞跃将是非常不合理的!我已经看到一些贝叶斯人使用该示例来模仿常客方法,而常客通常会回答“好吧,我在大多数时间仍然会获得正确的间隔,并且没有做出错误的假设”。我要指出的是,贝叶斯/频繁主义者的僵局对大多数使用其方法的人并不重要。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.