如何解释一个样本T检验中均值差异的置信区间？

21

SPSS提供输出“差异均值的置信区间”。我在某些地方读到它的意思是“ 100的95倍，我们的样本均值差将在这些界限之间”，我对此不清楚。谁能建议用更清晰的措词来解释“均值差异的置信区间”吗？此输出出现在单样本t检验的上下文中。

confidence-interval

— 安妮
source

1

你的解释是什么？

— mpiktas，2011年

1

请注意，这个比例没有什么特别的：用于估计任何事物的CI将以类似的方式解释。（但是，根据所估计的内容，可以使用不同的程序来构造CI。）因此，该问题与先前要求对CI进行解释的问题完全相同。

— Whuber

13

即使对于受人尊敬的统计学家来说，这也不是一件容易的事。看看Nate Silver最近的一次尝试：

...如果我要您告诉我您的通勤多久比平均时间多10分钟-某些情况需要一定的置信区间-您必须考虑一下，...

（摘自《纽约时报》 2010年9月29日的FiveThirtyEight博客。）这不是一个置信区间。根据您的解释方式，它可以是公差区间或预测区间。（否则，Silver先生关于估计概率的精彩讨论没有问题；这是一本好书。）许多其他网站（尤其是那些专注于投资的网站）同样将置信区间与其他种类的区间相混淆。

《纽约时报》已努力澄清其产生和报告的统计结果的含义。许多民意调查下方的精美文字包括以下内容：

从理论上讲，在20个案例中的19个案例中，基于所有成年人的样本得出的结果与试图采访所有美国成年人所获得的结果在任何一个方向上相差不超过三个百分点。

（例如，如何进行投票，2011年5月2日。）

也许有些罗word，但清晰准确：此陈述描述了民意调查结果的抽样分布的变化性。这已经接近置信区间的概念，但是还不足够。但是，在许多情况下，您可能会考虑使用这种措词代替置信区间。

当互联网上存在太多潜在的混乱时，转向权威来源很有用。我最喜欢的作品之一是弗里德曼（Freedman），皮萨尼（Pisani）和普拉夫（Purves）的历史悠久的文字《统计》。 现在它的第四版已经在大学中使用了30多年，并且以其清晰，明确的解释并着眼于经典的“频率论”方法而著称。让我们看看它对解释置信区间的含义：

95％的置信度说明了抽样程序...

[在第 384; 所有引用均来自第三版（1998年）]。它继续

如果样本得出的结果不同，则置信区间将有所不同。...对于所有样本的大约95％，间隔...覆盖了总体百分比，而对于其他5％，则没有。

[p。384]。本文对置信区间进行了更多介绍，但这足以提供帮助：其方法是将讨论的重点转移到样本上，同时使陈述更加严格和清晰。因此，我们可能会在自己的报告中尝试相同的操作。例如，让我们使用这种方法来描述假设实验中报告的百分比差异周围的置信区间[34％，40％]：

“该实验使用了随机选择的受试者样本和随机选择的对照。我们报告差异的置信区间为34％至40％。这量化了实验的可靠性：如果受试者和对照的选择不同，此置信区间将发生变化以反映所选受试者和对照的结果，在95％的情况下，置信区间将包括真实差异（所有受试者与所有对照之间的差异），而其他5％的情况则不会因此，该置信区间可能（但不确定）包括真实差异：也就是说，我们认为真实差异在34％和40％之间。”

（这是我的文字，肯定可以改进：我邀请编辑人员进行处理。）

这样的长声明有点笨拙。在实际报告中，大多数情况（随机抽样，受试者和对照，可变性的可能性）已经确定，因此前面陈述的一半是不必要的。当报告确定样本存在变异性并显示样本结果的概率模型时，通常不难根据受众的需要清楚而严格地解释置信区间（或其他随机区间）。

— ub
source

感谢Whuber，我对平均区间的理解很好。我感到困惑的是（样本和流行音乐之间）均值差异的CI。

— 安妮（Anne）

@Anne您指的是什么？据我所知，您的问题和任何答复均未提及样本均值和总体均值之间的差异。您的问题似乎是指两个样本均值之间的差异（也许是一组实验对象的均值与一组对照组的均值之间）。

— ub

我正在考虑的示例是您正在寻找样本均值和总体均值之间的差异。在这种情况下，样本和流行音乐之间的CI究竟是什么意思。我们已经使用样本均值来估计流行标准偏差，因此，我们将根据均值估计来估计CI。均值的差异不是我们提供的流行均值和样本均值之间的差异。那是什么

— 安妮（Anne）

1

@Anne“人口平均数” 是被抽样人群的假设的，未知的均值，还是穷举抽样的另一人口的测量均值？另外，您在什么意义上使用了“样本均值”来估算总体标准偏差？那可能是错字吗？

— ub

2

@whuber谢谢。您的一行“为所有样本的95％计算的CI（即所有可能的重复样本的95％）将覆盖该真实差异。” 对我来说，比“ 100的95倍，我们的样本均值差将在这些界限之间”更清晰，您的解释是合乎逻辑的。

— 安妮（Anne）

5

从学究的技术角度来看，我个人认为置信区间的解释没有“明确的措辞”。

我将置信区间解释为：95％的置信区间有95％的概率覆盖了真实的均值差

$N$ $N$

$N-1$

但是请注意，这全是哲学。在我认为的解释中，置信区间最好保持模糊。正确使用它们会产生良好的效果。

— 概率逻辑
source

在“ N个不同的置信区间”之后开始一个新句子。不能很好地与“您可以进一步解释为说...”。我建议修改第三段。

— Theta30 2011年

2

您的第三段比第二段要好得多。置信区间以观察到的数据为条件，可以包含真实参数值，也可以不包含。

— 主教

@probabilityislogic：由于此答案已被接受，请考虑编辑第二段。另外，能否请您在倒数第二段中阐明您的意思？照我看，我不太确定您在说什么。

— 主教

如果我们根据实验的“重复”来解释置信区间，那么我们必须在这些重复中忽略先前的实验。我的观点是：为什么对置信区间的这些“重复”的先前实验的无知对我们尚未观察到的那些数据集有好处，但是我们必须将这些数据集中起来用于我们观察到的数据？（根据我对CI解释的了解），用您拥有的数据生成尽可能多的CI是否有意义（根据我的理解）？

— 概率

1

在统一最准确的置信度集上，有一个与最优决策理论基本平行的整体理论。也许那是您缺少的难题。（？）

— 红衣主教

3

该问题的大致答案是，置信区间为95％，则可以使您有95％的信心将真实参数值置于该区间内。但是，这个粗略的答案既不完整也不准确。

这种不完整之处在于以下事实：不清楚“ 95％的信心”是什么具体含义，如果确实如此，那么即使是一小撮统计学家也不会普遍同意具体含义。置信的含义取决于使用哪种方法来获取间隔以及使用哪种推理模型（我希望在下面可以更清楚地看到它）。

不准确之处在于，许多置信区间的设计目的并不是告诉您有关产生置信区间的特定实验情况下真实参数值的位置的任何信息！这将使许多人感到惊讶，但它直接遵循了内曼·皮尔森（Neyman-Pearson）的哲学，该哲学在1933年发表的论文《关于统计假设的最有效检验的问题》中明确引用：

我们倾向于认为，就特定的假设而言，基于概率论的检验无法单独提供有关该假设的真假的任何有价值的证据。

但是我们可能会从另一个角度看待测试的目的。在不希望知道每个单独的假设是对还是错的情况下，我们可能会寻求规则来控制我们关于它们的行为，然后确保从长远来看，我们不会经常犯错。

因此，基于NP假设检验的“反演”的时间间隔将从该检验中继承具有已知长期误差性质的性质，而不会推断得出它们的实验性质！我的理解是，这可以防止归纳推断，内曼显然认为这是可憎的。

内曼在他1941年的Biometrika论文“基准论点和置信区间理论”中明确声明了“置信区间”一词和置信区间理论的起源。因此，从某种意义上说，任何适当的置信区间都将由其规则发挥作用，因此单个区间的含义只能用长期运行率来表示，该方法所计算出的区间包含（覆盖）相关的真实值。参数值。

现在我们需要进行讨论。一条线遵循“覆盖”的概念，另一条遵循非尼曼区间，如置信区间。我将推迟前者，以便我可以在这篇文章变得太久之前完成它。

有许多不同的方法可以得出区间，这些区间可以称为非内曼信心区间。首先是费舍尔的基准间隔。（“基准”一词可能会吓到许多人并引起他人的嘲笑，但我将其抛在一边……）对于某些类型的数据（例如具有未知总体方差的正态），费舍尔方法计算出的间隔在数值上与间隔可以通过内曼的方法来计算。但是，它们要求截然相反的解释。Neymanian间隔仅反映该方法的长期覆盖范围，而Fisher间隔旨在支持有关所执行特定实验的真实参数值的归纳推断。

一组区间边界可以来自基于两种在哲学上截然不同的范例中的一种的方法，这一事实导致了一种真正令人困惑的情况-结果可以用两种相互矛盾的方式来解释。根据基准参数，特定的95％基准间隔将包含真实参数值的可能性为95％。从Neyman的方法中，我们仅知道以这种方式计算的95％的间隔将包含真实参数值，并且不得不说关于包含真实参数值的间隔未知但为1或0的概率的说法令人困惑。

在很大程度上，内曼的方法已经超过了费舍尔的方法。在我看来，这是最不幸的，因为它不会自然地解释间隔。（重新阅读上面Neyman和Pearson的报价，看它是否与您对实验结果的自然解释相符。很可能与您的解释不符。）

如果可以用全局错误率正确解释区间，但也可以用局部推论正确解释区间，则我认为没有充分的理由禁止区间用户使用后者提供的更自然的解释。因此，我的建议是对置信区间的正确解释是以下两者：

Neymanian：这个95％的间隔是通过一种方法构建的，该方法在长远来看（在我们的统计经验中）在95％的情况下会产生覆盖真实参数值的间隔。
渔夫：此95％的间隔具有覆盖真实参数值的95％概率。

（贝叶斯方法和似然法也将产生具有期望的频度特性的区间。这种区间会引起稍有不同的解释，这两种解释都可能比内曼人更自然。）

— 迈克尔·卢
source

@Micheal-它们之间的不同之处在于，必须根据足够的统计量以及所有辅助数量的条件来确定一个心律间隔。Neymans置信区间不需要此属性，因此受“ 95％置信区间”的影响，其样本的特定子类别具有不同的覆盖率。

— 概率

@probability-您可以对此进行扩展吗？您是说在某些情况下95％的Neymanian置信区间是置信区间，而不是95％的区间？那将是什么情况？在这种情况下，Fisherian区间会具有相同的界限吗？

— Michael Lew

您可以显示可以从样本中看出“ 95％”置信区间不包含真实值的情况。 Jaynes论文中的示例5和示例6给出了两种情况，即在CI中不使用足够的统计数据将提供长期覆盖范围，但是覆盖范围将在某些类别的样本上有所不同。类似于两个变量具有相同的平均值（长期覆盖率）但方差不同（在特定情况下为覆盖率）

— 概率

2

置信区间的含义是：如果您要以完全相同的方式重复实验（即：相同数量的观察值，从相同总体中提取等），并且如果您的假设正确，则可以计算在每次重复中再次使用该间隔，则该置信区间将包含95％重复中的真实患病率（平均）。

因此，您可以说您有95％的把握（如果您的假设是正确的，等等）现在已经构造了一个包含真实患病率的区间。

这通常表示为：在95％的置信度下，在整个怀孕期间吸烟的母亲的孩子中有4.5％至8.3％肥胖。

请注意，这本身通常并不有趣：您可能要将其与不吸烟的母亲的患病率（比值，相对风险等）进行比较。

— 尼克·萨布比
source

（此回复是在两个线程合并后到达的，它是对按照比例CI构成的重复问题的答复。）

— whuber

0

如果真实均值差超出此间隔，则只有5％的机会使我们实验的均值差与真实均值差得很远。

— 托马斯·莱文
source

“这个遥远”是什么意思？这是CI的上限还是所观察到的均值？

— 概率

真实均值和观察到的均值之间的距离是我所说的“此遥远”。我将其更改为“ so far away”；我认为这更加清楚。

— 托马斯·莱文

-2

我的解释：如果您进行N次实验（其中N趋于无穷大），那么在这些大量实验中，有95％的实验的置信区间将在这95％的范围内。更明确地说，假设这些限制是“ a”和“ b”，那么样本的100倍中有95的平均值在“ a”和“ b”之间。我假设您了解不同的实验可以涵盖不同的样本在整个人口中。

— 阿尤什·比亚尼亚尼
source

@阿育谢谢。那很有帮助。对不起，我不太听你说的最后一句话。

— 安妮（Anne）

@anne-好的。我的意思是，如果您要测试两个样本之间的均值，并假设每个样本有1000个人，则可以定义其中的无限个样本（每个样本可以说40个人）。不同的实验彼此不同。我们观察置信区间的实验。

— 2011年

2

@ayush-这不是您倒数第二句话的正确解释。或者至少您应该在“ a”和“ b”中添加下标，这清楚地表明这些数量相差100倍。您当前的表示法使“ a”和“ b”看起来像是固定数量。

— 概率

@probabilityislogic-同意..下标是必需的。

— ayush biyani 2011年

1

[a, b]

$[a,b]$

-2

“ 95乘以100，您的值将落在平均值的一个标准差之内”

— 初学者状态
source

4

欢迎使用该网站@beginnerstat。我想知道您是否想说“ 平均值的两个标准差”？此外，我不确定我是否会在OP在其他地方阅读的内容上看到此措词有何改进。您想详细一点吗？

— gung-恢复莫妮卡

1

@gung的评论是：我对理解“均值”和“ SD”的含义特别感兴趣。这些是指基本参数还是样本估计值？它们是指基础随机变量的分布，还是指来自此类分布的iid变量平均值的采样分布？

— whuber