Answers:
即使对于受人尊敬的统计学家来说,这也不是一件容易的事。看看Nate Silver最近的一次尝试:
...如果我要您告诉我您的通勤多久比平均时间多10分钟-某些情况需要一定的置信区间-您必须考虑一下,...
(摘自《纽约时报》 2010年9月29日的FiveThirtyEight博客。)这不是一个置信区间。根据您的解释方式,它可以是公差区间或预测区间。(否则,Silver先生关于估计概率的精彩讨论没有问题;这是一本好书。)许多其他网站(尤其是那些专注于投资的网站)同样将置信区间与其他种类的区间相混淆。
《纽约时报》已努力澄清其产生和报告的统计结果的含义。许多民意调查下方的精美文字包括以下内容:
从理论上讲,在20个案例中的19个案例中,基于所有成年人的样本得出的结果与试图采访所有美国成年人所获得的结果在任何一个方向上相差不超过三个百分点。
(例如,如何进行投票,2011年5月2日。)
也许有些罗word,但清晰准确:此陈述描述了民意调查结果的抽样分布的变化性。这已经接近置信区间的概念,但是还不足够。但是,在许多情况下,您可能会考虑使用这种措词代替置信区间。
当互联网上存在太多潜在的混乱时,转向权威来源很有用。我最喜欢的作品之一是弗里德曼(Freedman),皮萨尼(Pisani)和普拉夫(Purves)的历史悠久的文字《统计》。 现在它的第四版已经在大学中使用了30多年,并且以其清晰,明确的解释并着眼于经典的“频率论”方法而著称。让我们看看它对解释置信区间的含义:
95%的置信度说明了抽样程序...
[在第 384; 所有引用均来自第三版(1998年)]。它继续
如果样本得出的结果不同,则置信区间将有所不同。...对于所有样本的大约95%,间隔...覆盖了总体百分比,而对于其他5%,则没有。
[p。384]。本文对置信区间进行了更多介绍,但这足以提供帮助:其方法是将讨论的重点转移到样本上,同时使陈述更加严格和清晰。因此,我们可能会在自己的报告中尝试相同的操作。例如,让我们使用这种方法来描述假设实验中报告的百分比差异周围的置信区间[34%,40%]:
“该实验使用了随机选择的受试者样本和随机选择的对照。我们报告差异的置信区间为34%至40%。这量化了实验的可靠性:如果受试者和对照的选择不同,此置信区间将发生变化以反映所选受试者和对照的结果,在95%的情况下,置信区间将包括真实差异(所有受试者与所有对照之间的差异),而其他5%的情况则不会因此,该置信区间可能(但不确定)包括真实差异:也就是说,我们认为真实差异在34%和40%之间。”
(这是我的文字,肯定可以改进:我邀请编辑人员进行处理。)
这样的长声明有点笨拙。在实际报告中,大多数情况(随机抽样,受试者和对照,可变性的可能性)已经确定,因此前面陈述的一半是不必要的。当报告确定样本存在变异性并显示样本结果的概率模型时,通常不难根据受众的需要清楚而严格地解释置信区间(或其他随机区间)。
从学究的技术角度来看,我个人认为置信区间的解释没有“明确的措辞”。
我将置信区间解释为:95%的置信区间有95%的概率覆盖了真实的均值差
但是请注意,这全是哲学。在我认为的解释中,置信区间最好保持模糊。正确使用它们会产生良好的效果。
该问题的大致答案是,置信区间为95%,则可以使您有95%的信心将真实参数值置于该区间内。但是,这个粗略的答案既不完整也不准确。
这种不完整之处在于以下事实:不清楚“ 95%的信心”是什么具体含义,如果确实如此,那么即使是一小撮统计学家也不会普遍同意具体含义。置信的含义取决于使用哪种方法来获取间隔以及使用哪种推理模型(我希望在下面可以更清楚地看到它)。
不准确之处在于,许多置信区间的设计目的并不是告诉您有关产生置信区间的特定实验情况下真实参数值的位置的任何信息!这将使许多人感到惊讶,但它直接遵循了内曼·皮尔森(Neyman-Pearson)的哲学,该哲学在1933年发表的论文《关于统计假设的最有效检验的问题》中明确引用:
我们倾向于认为,就特定的假设而言,基于概率论的检验无法单独提供有关该假设的真假的任何有价值的证据。
但是我们可能会从另一个角度看待测试的目的。在不希望知道每个单独的假设是对还是错的情况下,我们可能会寻求规则来控制我们关于它们的行为,然后确保从长远来看,我们不会经常犯错。
因此,基于NP假设检验的“反演”的时间间隔将从该检验中继承具有已知长期误差性质的性质,而不会推断得出它们的实验性质!我的理解是,这可以防止归纳推断,内曼显然认为这是可憎的。
内曼在他1941年的Biometrika论文“基准论点和置信区间理论”中明确声明了“置信区间”一词和置信区间理论的起源。因此,从某种意义上说,任何适当的置信区间都将由其规则发挥作用,因此单个区间的含义只能用长期运行率来表示,该方法所计算出的区间包含(覆盖)相关的真实值。参数值。
现在我们需要进行讨论。一条线遵循“覆盖”的概念,另一条遵循非尼曼区间,如置信区间。我将推迟前者,以便我可以在这篇文章变得太久之前完成它。
有许多不同的方法可以得出区间,这些区间可以称为非内曼信心区间。首先是费舍尔的基准间隔。(“基准”一词可能会吓到许多人并引起他人的嘲笑,但我将其抛在一边……)对于某些类型的数据(例如具有未知总体方差的正态),费舍尔方法计算出的间隔在数值上与间隔可以通过内曼的方法来计算。但是,它们要求截然相反的解释。Neymanian间隔仅反映该方法的长期覆盖范围,而Fisher间隔旨在支持有关所执行特定实验的真实参数值的归纳推断。
一组区间边界可以来自基于两种在哲学上截然不同的范例中的一种的方法,这一事实导致了一种真正令人困惑的情况-结果可以用两种相互矛盾的方式来解释。根据基准参数,特定的95%基准间隔将包含真实参数值的可能性为95%。从Neyman的方法中,我们仅知道以这种方式计算的95%的间隔将包含真实参数值,并且不得不说关于包含真实参数值的间隔未知但为1或0的概率的说法令人困惑。
在很大程度上,内曼的方法已经超过了费舍尔的方法。在我看来,这是最不幸的,因为它不会自然地解释间隔。(重新阅读上面Neyman和Pearson的报价,看它是否与您对实验结果的自然解释相符。很可能与您的解释不符。)
如果可以用全局错误率正确解释区间,但也可以用局部推论正确解释区间,则我认为没有充分的理由禁止区间用户使用后者提供的更自然的解释。因此,我的建议是对置信区间的正确解释是以下两者:
Neymanian:这个95%的间隔是通过一种方法构建的,该方法在长远来看(在我们的统计经验中)在95%的情况下会产生覆盖真实参数值的间隔。
渔夫:此95%的间隔具有覆盖真实参数值的95%概率。
(贝叶斯方法和似然法也将产生具有期望的频度特性的区间。这种区间会引起稍有不同的解释,这两种解释都可能比内曼人更自然。)
置信区间的含义是:如果您要以完全相同的方式重复实验(即:相同数量的观察值,从相同总体中提取等),并且如果您的假设正确,则可以计算在每次重复中再次使用该间隔,则该置信区间将包含95%重复中的真实患病率(平均)。
因此,您可以说您有95%的把握(如果您的假设是正确的,等等)现在已经构造了一个包含真实患病率的区间。
这通常表示为:在95%的置信度下,在整个怀孕期间吸烟的母亲的孩子中有4.5%至8.3%肥胖。
请注意,这本身通常并不有趣:您可能要将其与不吸烟的母亲的患病率(比值,相对风险等)进行比较。
我的解释:如果您进行N次实验(其中N趋于无穷大),那么在这些大量实验中,有95%的实验的置信区间将在这95%的范围内。更明确地说,假设这些限制是“ a”和“ b”,那么样本的100倍中有95的平均值在“ a”和“ b”之间。我假设您了解不同的实验可以涵盖不同的样本在整个人口中。
“ 95乘以100,您的值将落在平均值的一个标准差之内”