为什么这些陈述在逻辑上不符合95%CI的逻辑?


26

我一直在阅读Hoekstra等人在2014年发表的有关“对置信区间进行鲁棒性误解”的论文,该论文是Wagenmakers网站上下载

在倒数第二页上,出现以下图像。

测验

根据作者的说法,False是所有这些陈述的正确答案。我不太确定为什么这些陈述是错误的,据我所知,本文的其余部分并未试图解释这一点。

我相信1-2和4是不正确的,因为当真实均值具有一个未知的确定值时,它们会断言真实均值的可能值。这是一个令人信服的区别吗?

关于3,我理解一个人无意对原假设不正确的可能性做出断言,尽管我不确定原因。

同样,6也不能成立,因为这意味着真正的平均值在各个实验之间都在变化。

我完全不了解的那个是5。为什么那是错误的?如果我有一个过程在95%的时间内生成的CI包含真实均值,为什么我不说我有95%的置信度,即总体价值在0.1到0.4之间?是因为我们可能对刚刚获取的样本有一些特殊信息,使我们认为这很可能是不包含真实均值的5%之一?例如,置信区间中包括0.13,并且由于某些原因,在某些特定的研究范围内,0.13未被认为是合理的值,例如,因为该值将与先前的理论相抵触。

无论如何,信心在这种情况下意味着什么?


Answers:


11

问题(5)的真正含义取决于对“信心”的一些未公开解释。我仔细搜索了这篇论文,发现没有尝试定义“信心”或在这种情况下可能意味着什么。本文对问题(5)的回答如下:

“ ... [它]提到CI的边界,而... CI只能用于评估程序,而不能用于评估特定间隔。”

这既似是而非,而且具有误导性。首先,如果您无法评估过程的结果,那么过程首先有什么好处?其次,问题中的陈述不是关于程序,而是关于读者对其结果的“信心”

作者为自己辩护:

“在继续之前,重要的是要记得正确配置项的定义。配置项是围绕参数估计值构造的数字间隔。但是,这种间隔并不直接表示参数的属性;相反,它表示该程序的属性,这是常见技术的典型特征。”

他们的偏见出现在最后一句话:“频率主义技术”(也许用隐含的冷笑写)。尽管此表征是正确的,但严重不完整。 它没有注意到置信区间也是实验方法(如何获得和测量样本)的属性,更重要的是自然本身的属性。 是任何人对其价值感兴趣的唯一原因。

最近,我很高兴阅读爱德华·巴切莱特(Edward Batschelet)的《生物学循环统计》(学术出版社,1981年)。Batschelet以针对在职科学家的风格,写得清晰而明确。这是他对置信区间所说的:

没有机会而引起的波动偏差的迹象参数的估计没有什么科学价值。 ...

“尽管要估计的参数是一个固定数字,但置信极限是由样本确定的。它们是统计数据,因此取决于机会波动。从同一总体中抽取的不同样本导致不同的置信区间。”

[重点在于原文,第84-85页。]

请注意,重点有所不同:本文讨论的重点是过程,而 Batschelet的重点是样本,尤其是可以揭示参数的内容以及“机会波动”对信息的影响程度。我发现这种毫不掩饰的实用,科学的方法更具建设性,启发性,并且最终有用。

因此,对置信区间的全面描述要比本文提供的更加充分,就必须进行如下操作:

CI是围绕参数估计值构造的数值间隔。任何同意配置项构建基础的假设的理由都是说他们有信心参数位于区间内:这是“有信心”的含义。 该含义大致上与常规的非技术意义上的置信度一致,因为在多次重复实验(无论它们是否实际发生)下,尽管CI会有所不同,但预计CI大部分时间都包含该参数。

在这种更充分,更常规和更具建设性的“信心”意义上,问题(5​​)的答案是正确的。


2
值得注意的是,Batschelet的方法似乎排除了某些类型的置信区间,这些区间会使周到的读者暂停,例如CI可以为空。这样的配置项几乎不会抓住“由偶然波动引起的偏差指示”的想法。这表明,置信区间的标准定义可能无法完全达到预期目的。无论如何,在没有明确表明问题(5)中“信心”是什么的情况下,我们必须轻视作者根据对该问题的回答得出的任何结论。
whuber

根据您对置信区间的精确定义,我不同意5是正确的。CI必须基于足够的统计信息-否则,您可以创建具有案例的“坏”和“好”子类的CI,可以从您拥有的样本中识别出这些子类,以使这些类的覆盖率太低或太高。最基本的示例是的大小为2的iid样本。样本均值不足以满足因此您的CI覆盖范围会因所获得的特定样本而异。μyicauchy(μ,1)μ
概率

...继续...因此,即使达到了长期平均覆盖率,特定类别的样本中的覆盖率也不会达到。
概率

10

问题1-2、4:在频繁分析中,真实均值不是随机变量,因此未定义概率,而在贝叶斯分析中,概率将取决于先验概率。

问题3:例如,考虑一个我们确定知道的情况,尽管仍然有可能获得这些结果,但是说原假设“不太可能”成立是不合理的。如果零假设为真,我们获得了不太可能发生的数据,但这并不意味着零假设不太可能为真。

问题5:这有点可疑,因为这取决于“我们可以有%的信心”的定义。如果我们将陈述定义为表示从p%置信区间推断的事物,那么根据定义,该陈述是正确的。典型的亲贝叶斯论证指出,人们倾向于将这些陈述直观地理解为“概率为p%”,这是错误的(将答案与1-2,4进行比较)。

问题6:您的解释“这意味着真实的平均值在各实验之间都在变化”是完全正确的。

最近在安德鲁·盖尔曼(Andrew Gelman)的博客(http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/)中讨论了该文章。例如,在注释中讨论了有关问题5中陈述解释的问题。


1
因此,如果回过头来将“真实均值”的每个实例替换为“真实均值的最佳估计”,那么这些陈述是否正确?
最佳2014年

@Superbest否。如果我们考虑“给定此数据的最佳估计”,则它是一个已知常数(假设最佳定义明确)。如果我们考虑“对未来样本的最佳估计”,我们将不知道它的变化,因为我们不知道真实的均值。
Juho Kokkala 2014年

这并不是对上述评论的反驳,但我应该指出,“最佳估计”确实是实际数字,而不是分布。有了配置项,人们也许可以谈论“给定这些数据的真实均值所在的分布”。
极好的

1
@Super恰恰是本文对CI的误解。特别是,真实的均值是一个数字;它没有分配。有关置信区间,请参阅站点搜索中的前两个匹配项,以进行进一步讨论。
whuber

1
@super,“可信间隔”将近。
whuber

8

如果没有对“ 95%自信”意味着什么的正式定义,那么将#5标记为真或假有什么理由?毫无疑问,外行人会误认为它是该均值在该区间中的概率为95%的代名词:但是有些人的确使用了产生区间的方法,该区间的时间间隔中包含95%的真实均值,正是为了避免谈论未知参数的概率分布;这似乎是术语的自然扩展。

前面的陈述(#4)的类似结构可能鼓励受访者尝试区分“我们可以95%充满信心”和“我们有95%的可能性”,即使他们以前没有接受过这个想法。我曾期望这种技巧会导致协议中的#5比例最高-看着纸,我发现我错了,但是注意到至少80%的人以荷兰语版本阅读了问卷,这也许会引起一些疑问英文翻译的针对性。


4

这是置信区间的定义,来自BS Everitt的统计词典

“从样本观测值中得出的一定范围的值,以一定的概率被认为包含真实的参数值。例如,95%CI意味着一次又一次重复估算过程,然后是95% “应该注意,所计算的时间间隔中的“ 0”将包含真实的参数值。请注意,陈述的概率级别是指时间间隔的属性,而不是参数本身,不被视为随机变量”

一个非常常见的误解是将置信区间的含义与可信区间(又称为“贝叶斯置信区间”)的含义相混淆,这确实使陈述与问题中的陈述相似。

我听说,置信区间通常类似于从无根据的先验得出的可信区间,但这是轶事告诉我的(尽管我很尊重一个人),我没有细节或举证。


Jaynes 1976年论文的置信区间与贝叶斯区间。那是至少一个可靠的解决方案。还有伯格和伯纳多的参考先验。说真的,您从未听说过这些吗?
概率

2

关于问题5的虚假直觉,我从这里获得了关于该主题的以下讨论

正确地说,您计算出的置信区间包含真实总体平均值的可能性为95%。说总体平均值在区间内的可能性为95%,这是不太正确的。

有什么不同?总体平均值具有一个值。您不知道它是什么(除非您正在进行仿真),但是它只有一个价值。如果您重复实验,则该值不会改变(并且您仍然不知道它是什么)。因此,询问总体均值在一定范围内的概率并不是严格正确的。相反,您计算的置信区间取决于您碰巧收集的数据。如果您重复实验,则您的置信区间几乎肯定会有所不同。因此,可以询问该间隔包含总体平均值的概率。

现在是关于5的具体问题。为什么会出错...

  1. 是因为我们可能对刚刚获取的样本有一些特殊信息,使我们认为这很可能是不包含真实均值的5%之一?不,相反,我认为这是因为真实均值不是随机变量,而是置信区间是数据的函数。
  2. 100(1α)100(1α)

作为一个旁注(在该问题的其他答案中提到),可信区间(贝叶斯统计的概念)确实预测,在实际获得数据的情况下,参数的真实值具有置信区间内的特定概率。也许您可以从Gelman的博客上获得更多背景知识。


5
“间隔包含真实值”和“真实值位于间隔内”是完全相同的意思。从前者的角度进行思考会更有帮助,但是说一个是正确的而另一个是不正确的并没有任何意义。
David Richerby 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.