置信区间说明精度(如果有的话)是什么?


31

Morey等人(2015年)认为,置信区间具有误导性,并且与理解它们有关。其中,他们将精度谬误描述如下:

精度谬误
置信区间的宽度表示我们对参数知识的精度。狭窄的置信区间显示精确的知识,而宽的置信误差则显示不精确的知识。

估计的精度和置信区间的大小之间没有必要的联系。看到这种情况的一种方法是,想象两个研究人员(一名高级研究员和一名博士生)正在分析实验中参与者的数据。为了使博士生受益,这项高级研究人员决定将参与者随机分为两组,每组25人,这样他们就可以分别分析一半的数据集。在随后的会议上,有一个两股另一个自己学生的牛逼置信区间的平均值。博士生的95 CI为52 ± 2,而高级研究员的95 CI为52 ± 25025t95%52±295%CI为53±4

资深研究员指出,他们的结果大致上是一致的,他们可以使用各自两个点估计值的均等加权平均值作为真实平均值的总体估计。52.5

但是,这名博士生认为,这两种方法的权重不应平均分配:她指出自己的CI的宽度是后者的一半,并且认为自己的估算更为准确,因此应加权更大。她的顾问指出,这是不正确的,因为对两种方法进行加权加权后得出的估算值将不同于对整个数据集进行分析得出的估算值,该估算值必须为。博士生的错误是假设CI直接表示数据后精度。52.5

上面的示例似乎具有误导性。如果我们将一个样本随机分为两半,那么我们期望样本均值和标准误都接近。在这种情况下,使用加权平均值(例如,通过反误差加权)与使用简单算术平均值之间应该没有任何区别。但是,如果估计值不同并且其中一个样本的误差明显更大,则可能表明此类样本存在“问题”。

显然,在上面的示例中,样本大小相同,因此通过均值的平均值“合并”数据与整个样本的均值相同。问题在于,整个示例遵循的逻辑不明确,即首先将样本分为几部分,然后再重新合并以进行最终估计。

该示例可以重新措辞以得出完全相反的结论:

研究人员和学生决定将其数据集分为两半,并进行独立分析。之后,他们比较了自己的估计,似乎样本意味着他们计算出的差异很大,而且学生的估计的标准误也更大。该学生担心这可能会暗示其估计精度存在问题,但是研究人员暗示,置信区间和精度之间没有联系,因此这两个估计值都是可信赖的,并且可以发布其中的任何一个(随机选择),作为他们的最终估计。

t

x¯±c×SE(x)

c

所以我的问题是:
精确谬论真的是谬论吗?置信区间对精度有何评价?


Morey,R.,Hoekstra,R.,Rouder,J.,Lee,M.和Wagenmakers,E.-J. (2015)。将置信度置入置信区间的谬误。心理公告与评论,1-21。https://learnbayes.org/papers/confidenceIntervalsFallacy/


2
我想如果将精度定义为方差的倒数,则这些配置项的宽度仅反映精度的估计。平均值的贝叶斯可信区间的宽度会反映出精度的不确定性。
Scortchi-恢复莫妮卡

@Scortchi然后,这是另一种说法,说通常的方法通常不可靠。
蒂姆

7
7.5/25=5±3

@StephanKolassa我进行了完全相同的模拟,得出了完全相同的结论-这就是问题的出现方式:)
Tim

2
@Tim:我真的不知道他们想要得到什么:如果均值估计的真实精度被认为是两个子样本共有的未知参数值的函数,那么我不要以为有人会承认这两个配置项的宽度差异并不能反映出估算精度的差异(除非他们怀疑二次抽样程序)。考虑到以观察到的变异系数为条件的CI的覆盖特性可能是更好的策略。
Scortchi-恢复莫妮卡

Answers:


16

在本文中,我们实际上以多种方式演示了精度谬误。您要问的那个问题(本文的第一部分),该示例旨在说明简单的“ CI = precision”是错误的。这并不是说任何有能力的常客,贝叶斯主义者或似然主义者都会对此感到困惑。

Nx¯s2s2σ2

至于其他关于精确谬误的演示,请参见

  • Welch(1939)节(潜艇)中的多个CI,其中一个包括上面@dsaxton提到的“琐碎” CI。在此示例中,最佳CI不跟踪似然度的宽度,并且还有其他几个CI均不跟踪的可能性。
  • CI甚至“好” CI都可以为空,“错误”表示无限精度的事实

难题的答案是,至少在CI倡导者所认为的方式中,“精确度”(对估计值与参数的“接近”程度的实验后评估)根本不是置信区间通常具有的特征。 ,但它们并非本意。特定的置信度程序可能...可能不会。

另请参阅此处的讨论:http : //andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591


7
(+1)很高兴收到实际作者的来信!我同意CI以及所有形式的推理(只是不同的问题)都存在几个哲学问题...我喜欢您如何指出这是您需要考虑的特定置信度程序,而不仅是这样的CI和这样的水平。

4
(+1)感谢您的回复!我同意您在论文中提出的观点,即CI 不必说任何关于精度的论点,但是称其为谬论给人的印象是您表示他们没有说关于精度的任何话-这是不一样的...而且:在您看来,“精确谬误”是现实生活中的一个分析问题。我同意误解CI是,但是在这种情况下,我不太确定...
蒂姆

2
“现实生活”的影响很难量化,尤其是b / c可以谈论在特定分析场景或整个领域中的影响。仅以高斯计算CI意味着谬误并不太危险。但是请考虑p117上的引用列表(第几段开头为“施泰格的置信度程序将执行多久...”)。这些已发表论文中的间隔可能“太”窄了。谬论还有其他影响:对新配置项程序的生成者缺乏彻底性(请检查具有新配置项的任何论文),分析师不愿在需要时放弃高斯假设以及其他原因。
richarddmorey

这些寄生使我着迷。这是什么“潜艇”?
最佳

1
θ

13

首先,让我们限制于仅产生严格正的,有限的宽度间隔的CI程序(以避免病理情况)。

在这种情况下,可以从理论上证明精度和CI宽度之间的关系。估算平均值(如果存在)。如果您的均值的CI非常狭窄,那么您有两种解释:要么运气不好并且样本过于密集(发生此事的概率为5%),要么您的时间间隔覆盖了真实均值(95%)先验的机会)。当然,观察到的CI可以是这两者之一,但是,我们进行了计算,以使后者发生的可能性更大(即先验概率为95%)...因此,的信心我们的时间间隔涵盖了均值,因为我们概率性地设置了事情,事实就是如此。因此,95%的置信区间不是概率区间(如贝叶斯可信区间),而更像是“可信赖的顾问” ...据统计,在95%的时间内正确的人,因此即使我们相信他们的回答,任何特定的答案很可能是错误的。

在95%的情况下,它确实覆盖了实际参数,然后宽度告诉您有关给定数据的合理值范围的信息(即,可以将真值绑定的程度),因此,它就像一个精度度量。在5%的情况下,配置项具有误导性(因为样本具有误导性)。

所以,95%CI宽度是否表示精度...我想说它有95%的几率(假设您的CI宽度为正-有限);-)

什么是明智的CI?

为了回应原始作者的帖子,我对我的回答进行了修订,以(a)考虑到“分割样本”示例具有非常特定的目的,以及(b)根据评论者的要求提供更多背景信息:

在理想的(惯常的)世界中,所有采样分布都将接受一个关键的统计量,我们可以使用该统计量来获得确切的置信区间。关键统计有何优点?它们的分布可以在不知道估计参数实际值的情况下得出!在这些很好的情况下,相对于关于此参数的真实参数(尽管可能不是高斯),我们可以准确地分配样本统计信息。

简而言之:我们知道错误分布(或其某种转换)。

正是某些估计量的这种性质使我们能够形成合理的置信区间。这些间隔不仅仅满足其定义...它们是通过从估计误差的实际分布中得出来的。

高斯分布和相关的Z统计量是使用枢轴数量得出均值的精确CI的典型示例。还有更多深奥的例子,但这通常是激发“大样本理论”的例子,这基本上是一种尝试,将高斯CI背后的理论应用于不允许真实枢轴数量的分布。在这些情况下,您会读到大约关键的或渐近关键的(在样本量中)数量或“近似”置信区间...这些都是基于似然理论的-特别是许多MLE的误差分布这一事实接近正态分布。

生成明智CI的另一种方法是“反转”假设检验。这个想法是,对于给定的I类错误率,“良好”测试(例如UMP)将导致良好的CI(读取:窄)。这些并不能提供确切的覆盖范围,但是可以提供较低范围的覆盖范围(请注意:X%-CI的实际定义仅表示它必须至少在 X%的时间内覆盖真实参数)。

假设检验的使用并不需要直接的关键量或误差分布-它的敏感性源自基础检验的敏感性。例如,如果我们有一个测试,其拒绝区域的长度为0 5%的时间而无限长的时间为95%的时间,那么我们将回到使用CI的位置,但是很明显,该测试并非视数据而定,因此将不会提供有关正在测试的基础参数的任何信息。

这种更广泛的想法-精度估算应以数据为条件,这一点可以追溯到Fischer和辅助统计的想法。您可以确定,如果测试或CI过程的结果不受数据的限制(即,其有条件的行为与无条件的行为相同),那么您手上就有一个可疑的方法。


2
如果您可以详细说明在“注释”中添加的内容,那就太好了。我认为这是整个讨论的症结所在:可以设计出非常奇怪但有效的频繁操作程序来构造CI,在此程序下CI的宽度与精度无关。因此,就像莫雷(Morey)等人那样,人们可以争论。这样做,原则上误导了配置项。我确实同意您的看法,即常用的CI程序比这更合理,但是需要弄清楚是什么使它们如此。
变形虫说恢复莫妮卡

@amoeba我添加了更多关于为什么并非所有配置项都相等的解释...主要思想是友善,其次是误差分布(或其近似值)的作用

感谢更新。有一两件事,我还没有找到你的答案很明确,就是在第一款你不说什么关于CI宽度; 您只是在谈论它包含或不包含真实的填充参数。即使在“病理”情况下,那里的一切都是正确的。然后,您说是的,宽度表示精度,但是(此时)您尚未提供任何参数。在后面的讨论中,您将进行更多说明。
变形虫说莫妮卡(Monica)恢复

@amoeba我想我的帖子可以做更多的格式化。基本逻辑是这样的(假设我们使用的是我所概述的“合理的” CI程序):区间有95%的先验机会包含真实参数。收集数据后,我们有了实际间隔(有限的,非零宽度)。如果它包含真实参数,则宽度表示可能存在的合理值范围,因此宽度限制了参数的范围。但是,在间隔不包含该值的5%的情况下,该间隔具有误导性。

@amoeba更新了帖子,以更好地强调CI宽度和精度之间的联系。

8

{x1,x2,,xn}(μ,σ2)μ(,){0}基于有偏见的硬币的翻转。通过使用正确的偏差,我们可以获得喜欢的任何置信度,但是显然,即使我们得出的区间宽度为零,我们的区间“估计”也根本没有精度。

为什么我不认为我们应该关心这个明显的谬误的原因是,虽然这是事实,有一个置信区间和精度的宽度之间没有必然的联系,也就是标准误差和精度之间几乎普遍连接,并在大多数情况下,置信区间的宽度与标准误差成正比。

σ


关于随机无限CI的要点...绝对表明,置信度是一个不同于精度的概念。我可能应该以我假设基于可能性的CI来打消我的回答,其中宽度与对数似然率的曲率有关,这是标准误差的近似值……您的帖子指出,有些CI在技术上可以实现覆盖范围,但以非常违反直觉的方式进行。

一个相关的问题(尽管非常有趣)是CI的相关子集...例如,如果您以辅助统计为条件,则CI覆盖范围可能会发生变化(例如,t区间的条件覆盖范围就是一个例子)根据样品的变异性而变化)。这是论文的链接:jstor.org/stable/2242024?seq=

@Bey本文中还有另一个涉及潜水艇的极端示例:webfiles.uci.edu/mdlee/fundamentalError.pdf。这是一个有趣的例子,但又似乎是没有聪明人做出的一种解释。
dsaxton

同意...。无法在统计信息时留下常识……甚至在机器学习中(有点用词不当)

1
@richarddmorey:好的,我明白了。然后,这只是一个不幸的表述!我不是故意把它排除在上下文之外的。老实说,我将此句子作为对任何情况的总结和概括(没有意识到该句子中假定了“在该示例中”)。考虑在我的指责下(在其他话题中已经发表了一些评论)在其他主题中留下一个澄清评论。
变形虫说恢复莫妮卡

4

我认为“置信区间”和“精确度”之间的明显区别很重要(请参阅@dsaxton的答案),因为该区别指出了这两个术语的常用用法。

引用维基百科

测量系统的精度与可重复性和可重复性有关,是在不变条件下重复测量显示相同结果的程度。

因此,有人可能会争辩说,频繁的置信区间确实代表了一种测量方案的精度。如果重复相同的方案,则每次重复计算的95%CI将在95%的重复中包含参数的一个真实值。

但是,这并不是很多人从实用的精度度量中想要的。他们想知道测量值与真实有多接近。频繁的置信区间并不严格提供这种精度的度量。贝叶斯可信区域。

在实际示例中,一些困惑是,频繁的置信区间和贝叶斯可信区域“或多或少会重叠”。这样的例子就是从正态分布采样,就像在OP上的一些注释一样。在实践中,@ Bey想到的一些更广泛类型的分析也可能是这种情况,这是基于对具有正态分布限制的过程中标准误差的近似。

如果您知道自己处在这种情况下,那么从一个测量方案的单一实施中解释一个特定的95%CI可能不会有实际危险,因为它具有95%的概率包含真实值。但是,对置信区间的这种解释并非来自常客统计,因为其真实值在该特定区间内或不在该特定区间内。

如果置信区间和可信区域显着不同,则如上述链接的纸张和其中引用的早期文献所表明的那样,贝叶斯式的常识性置信区间解释可能是误导或错误的。是的,“常识”可能有助于避免这种误解,但以我的经验,“常识”并不那么普遍。

其他CrossValidated页面包含有关置信区间以及置信区间和可信区域之间差异的更多信息。来自那些特定页面的链接也非常有用。


这是一个很好的观点。...我认为与“精度”的常见解释最接近的想法更像是RMS误差。认为无偏但高度可变的估计值不比低变异性但高度偏倚的估计值好...两者都不能依靠而得出接近真实值的估计值。

+1,但我不确定我是否同意您对“常识”的悲观看法。杰弗里(Jeffreys)引用了常识性统计资料中的“常识” I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense
变形虫说恢复莫妮卡

@amoeba认为拉普拉斯(Laplace)的主张是:“概率论只不过是常识而已。自那时以来,致力于概率论的努力至少表明,常识的含义并不总是立即显而易见的。
EdM '16

@amoeba:Fisher拒绝了CI,并确认Fisher是频率论者。有误导性。他的区间逻辑(基准)类似于obj。贝叶斯,他确定了具有理性不确定性的概率。他说:“有时有人断言基准方法通常会产生与[CIs]方法相同的结果。很难确定这是怎么回事,因为已经坚定地确定了置信方法间隔不会导致关于现实世界的参数的概率陈述,而为此目的存在基准论证。” (费舍尔,1959年)
richarddmorey

@richard,感谢您的澄清。费舍尔(Fisher)在整个漫长的职业生涯中都说过矛盾的话,并且几次改变了自己的见解。我对他的基准理论不是很熟悉,因此无法对此发表评论。我的无意识假设是该引用中的Jeffreys指的是费舍尔的“频繁时期”,但我没有任何证据。以我的经验(有限!),没有人使用基准推理。没有人。曾经 经常使用频频技术,许多技术可以追溯到费舍尔。因此,联想在我心中存在。
变形虫说恢复莫妮卡

1

@Bey有。分数与性能之间,价格与质量之间,气味与味道之间都没有必要的联系。然而,一个通常会告知另一个。

可以通过归纳证明一个人不能进行流行测验。经过仔细检查,这意味着不能保证测验是一个惊喜。然而大多数时候都会如此。

听起来,Morey等人表明,存在宽度不合理的情况。尽管这足以声称“估计的精度与置信区间的大小之间没有必要的联系”,但不足以进一步得出结论:CI通常不包含有关精度的信息是不够的。只是不能保证他们这样做。

(指向+ @Bey的答案不足。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.