狭窄的置信区间-更高的准确性?


18

关于置信区间,我有两个问题:

显然,狭窄的置信区间意味着在该区间内获得观测值的机会较小,因此,我们的准确性更高。

同样,95%置信区间比99%置信区间更窄。

99%置信区间比95%更准确。

有人可以给出一个简单的解释,以帮助我理解准确度和狭窄度之间的区别吗?


2
我认为您的意思是“ 该时间间隔之外获得观测的机会较小”。不幸的是,由于技术,统计问题,置信区间可能并不代表它的含义,但通常来说,区间(在给定的置信度下)越窄,结果的不确定性就越小。该站点上有许多主题讨论置信区间的含义(与可信区间相反)。我们甚至都没有进入预测间隔...
韦恩

@Wayne为什么语句不是“ 该间隔获得观测的机会较小”?由于窄间隔具有较大的1类错误,因此它更有可能拒绝真实的零假设,即该间隔中不包含我的真实零值。所以,在我看来a narrow confidence interval implies that there is a smaller chance of obtaining an observation within that interval是正确的。您能解释一下我在哪里做错了吗?
用户31466

Answers:


19

95%的数字与您对自己已经涵盖了实验中的真实效果的信心没有任何数字联系。也许认识到“使用95%覆盖范围计算的间隔”可能是一个更准确的名称。您可以选择确定间隔包含真实值;如果您始终坚持95%的时间这样做,那将是对的。但是,如果没有更多信息,您真的不知道特定实验的可能性如何。

问题1: 您的第一个查询将两件事混为一谈,并且误用了一个术语。难怪你很困惑。较窄的置信区间可能更精确,但以相同的方式(例如95%方法)计算时,它们的准确性都相同。它们以相同的比例捕获真实值。

而且,仅因为它的范围狭窄并不意味着您不太可能遇到落入该狭窄置信区间内的样本。可以通过以下三种方式之一实现较窄的置信区间。实验方法或数据的性质可能具有非常低的差异。无论样本大小如何,海平面上自来水沸点周围的置信区间都非常小。围绕人的平均体重的置信区间可能会很大,因为人的变化很大,但是只要获取更多的观察值,就可以减小该置信区间。在这种情况下,通过确定更多的样本并缩小置信区间,您可以更加确定自己相信真实值在哪里,那么在该置信区间内遇到一个人的可能性确实下降了。(在增加样本量的情况下,它都会减小,但是您可能不必费心在沸水箱中收集大样本)。最后,它可能很狭窄,因为您的样本没有代表性。在这种情况下,您实际上更有可能拥有不包含真实值的5%间隔之一。关于CI宽度,这有点自相矛盾,您应该通过了解文献以及该数据通常具有多大的可变性来进行检查。在这种情况下,您实际上更有可能拥有不包含真实值的5%间隔之一。关于CI宽度,这有点自相矛盾,您应该通过了解文献以及该数据通常具有多大的可变性来进行检查。在这种情况下,您实际上更有可能拥有不包含真实值的5%间隔之一。关于CI宽度,这有点自相矛盾,您应该通过了解文献以及该数据通常具有多大的可变性来进行检查。

进一步考虑置信区间是要尝试估计总体的真实平均值。如果您知道该点,那么您将更加准确(而且准确),甚至没有一系列的估计值。但是,您遇到具有相同精确值的观测值的可能性远低于在任何基于特定样本的CI中找到观测值的可能性。

问题2:99%的置信区间大于95%的置信区间。因此,它更有可能包含真实值。看到上面的精确与准确之间的区别,您将两者混为一谈。如果我用较低的变异性和较大的样本量使置信区间变窄,它将变得更加精确,可能的值将覆盖较小的范围。如果我通过使用99%的计算来增加覆盖率,它将变得更加准确,则真实值很可能在该范围内。


2
总体中的均值(=您想要估计的)变异性为零。
Nick Sabbe 2011年

10

对于给定的数据集,增加置信区间的置信度只会导致更大的区间(或至少不会更小)。这与准确性或精度无关,而是与您愿意为失去真实价值承担多少风险有关。

如果您要比较多个数据集中同一种参数的置信区间,并且其中一个小于另一个,则可以说较小的那个更精确。在这种情况下,我更喜欢谈论精度而不是准确性(请参阅相关的Wikipedia文章)。


“相同种类的参数”和“多个数据集”是什么意思?比方说,对文盲的调查是在1995年,1998年等不同时间进行的。那么“文盲率”是否是相同的参数,1995、1998等数据集是否表示多个数据集?
用户31466

例如,一组置信区间,每个置信区间代表某个总体的平均值。我认为您的例子也很合适。
2015年

3

首先,对于给定的置信度百分比(例如95%),CI表示,从所有实际目的(尽管从技术上讲,这是不正确的),您都可以确信真实值在区间内。

如果此间隔是“窄”的(请注意,这只能以相对的方式看待,因此,为了与以下内容进行比较,说它是1个单位宽),则表示没有太大的玩法空间:无论哪个值您选择的时间间隔将接近真实值(因为时间间隔很窄),并且您可以肯定地确定该值(95%)。

将其与相对较宽的95%CI(将其与之前的示例进行比较,假设它为100个单位宽)相比较:在这里,您仍然95%确信真实值将在此区间内,但这并不能告诉您因为间隔中存在相对较多的值(大约为100而不是1,我再次要求纯粹主义者忽略这种简化)。

通常,与仅需要确定95%的值相比,当您需要确定其中的真实值时,将需要更大的时间间隔(请注意:如果不嵌套该时间间隔,则可能不正确,这需要的时间间隔为95%。 ),因此确实,您需要的信心越强,您需要选择的间隔就越广。

另一方面,您可以确信置信区间越高。因此,如果我给您两个相同宽度的间隔,并且我说一个是95%CI,另一个是99%CI,我希望您会喜欢99%CI。从这个意义上讲,99%的配置项更为准确:您将毫无疑问地会错失事实。


谢谢!那么,当他们说这项关于中微子比光速快的新研究的置信区间很小(我想这意味着很窄)时,那么这意味着,如果置信区间较宽,它们更有可能是准确的?(不考虑所有其他方面)
2011年

10
尼克,您的第一句话是错误的。这不是“技术问题”,只是不正确。置信区间说明重复实验将发生的情况,即95%的时间它们将覆盖真实值。关于在给定实验中找到的真实值在给定范围内的置信度的声明与完全不同。如果您删除了“那个自信”中的“那个”和括号内的数值,那么您将更接近真相。您可以说这意味着您相信真实值可能会落在区间中。
约翰

否则,答案是非常好的……
约翰·约翰·约翰(John

4
@John:我特别避免说间隔本身是随机变量,尽管我的句子并不暗示它不是随机变量(诚然,它确实暗示了这一点)。我知道所涉及的问题,但发现它们与问题无关。我从未见过实际情况,两者之间的差异也很重要,因此“出于所有实际目的”。
Nick Sabbe 2011年

4
还没遇到这个问题吗?这就像说p值=空值的概率,然后说您从未遇到过问题。如果您留在正确的日记本中,则不会。只能说您有95%的真实值在当前范围内是不正确的。将其视为某些深奥的事物只是意味着现在我们(至少)会再有一个人四处走走,说:“我有95%的信心认为这个值在这个范围内。” 它几乎不会改变您的答案来纠正它。如果您更改了一条陈述,您忽略的其他问题将被忽略。
约翰

3

我在这里补充了一些我赞成的好的答案。我认为应该说些什么来完全弄清结论。我喜欢Efron定义的术语“准确”和“正确”。我最近在另一个问题上对此进行了长时间的讨论。温和的混蛋真的很喜欢这个答案。我不会在同一个地方重复这里。但是,对于Efron而言,准确性与置信度有关,而对间隔的宽度或紧密度的准确性则与之有关。但是,如果不首先考虑准确性,就不能谈论紧密度。一些置信区间是准确的,因为它们具有广告宣传的实际覆盖范围,因此它们是准确的。95%的置信区间也可以是近似的,因为它使用渐近分布。基于渐近线的近似间隔是针对有限的样本大小n而言,将不具有广告覆盖率,这是如果渐近分布为精确分布时将获得的覆盖率。因此,大概的间隔可能会被掩盖(即,当实际覆盖率仅为91%时,广告为95%),或者在罕见但不太严重的情况下被掩盖(即,所覆盖的广告率为95%,但实际为98%)。在前一种情况下,我们担心实际覆盖范围与广告覆盖范围有多接近。接近度的度量是精度的顺序,可以说是1 /√n或1 / n。如果实际置信水平接近,我们称之为准确。Accuray对于永远不会精确的自举置信区间很重要,但是某些变体比其他变体更准确。

准确度的定义可能不同于OP所指的准确度,但是现在应该清楚Efron的定义是什么,以及为什么精确度很重要。现在,如果您有两种精确的方法,则对于任何置信度,它都具有较小的预期宽度时,我们可以首选一种方法。在这种意义上最好的置信区间(有时称为最短区间)将是一个选择。但这需要准确性。如果置信度仅为近似值,我们可以比较苹果和橙子。一个可能比另一个窄,这是因为它的准确性较差,因此实际覆盖范围要比广告覆盖范围低。

如果两个置信区间都非常准确,或者一个是准确的,而另一个非常准确的比较预期宽度可能就可以了,因为至少现在我们只看两个两个苹果品种。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.