在什么设置下,随着样本数量的增加,置信区间不会变好吗?


11

博客文章中,我发现有这样的说法:

“我相信Cochrane工作组首先指出(大约在1970年代),在观察环境中具有置信区间时,小样本量会导致更好的覆盖率,而足够大的样本会提供接近零的覆盖率!”

现在,我假设CI宽度应随着样本大小的增加而接近0,但是覆盖范围会同时变差的想法对我来说并不令人信服。这个说法是正确的,在什么情况下?还是我看错了?

我已经使用随机正态分布数据进行了模拟,样本大小为10000至1000000(一次样本t检验,95%CI),每个样本大小运行1000次,对于更大样本量,覆盖率并没有恶化(相反,我发现了预期的接近5%的恒定错误率)。


2
作为记录,这里提到的著名统计学家是威廉·G·科克伦(不是科克伦)。
Nick Cox

2
因为它在答案之一中引起了一些混淆,请注意,“ CI宽度应接近1”的说法要么毫无意义(1是什么?什么是测量单位??),要么就是纯属错误。
Whuber

Answers:


17

注意“在观察环境中”的资格。

检查报价所在的上下文(注释所在的子线程),其意图似乎是“在现实世界中”而不是在模拟中,并且可能不包括受控实验。在这种情况下,可能的意图是由于得出区间的假设实际上并不完全成立的结果。有很多因素会影响偏差-与小样本的可变性相比影响不大-但随着样本量的增加,样本的大小通常不会减小,而标准误差却会减小。

由于我们的计算没有包含偏差,因此随着时间间隔的缩小(如),任何不变的偏差(即使是很小的小偏差也越来越大)使我们的时间间隔越来越少地包含真实值。1/n

这是一个示例(可能会夸大偏差),以说明我认为关于CI覆盖率随着样本数量的增加而缩小的含义:

当存在偏差时,CI覆盖率随着样本量增加而缩小的示意图

当然,在任何特定样本中,间隔都是随机的-它将相对于图表变宽或变窄并向左或向右移动,因此,在任何样本大小下,其覆盖率都在0到1之间,但存在一定程度的偏差将随着增加而缩小为零。这是一个使用模拟数据在每个样本大小下具有100个置信区间的示例(以透明方式绘制,因此在覆盖更多区间的情况下颜色更纯色):n

与上面类似的图,每n个有10个样本CI


0

讽刺的是 在该段之前,同一个人说“难怪会有如此广泛的混乱”。“观察环境中的置信区间”:这甚至意味着什么?

在我看来,这再次是估计假设检验之间的混淆。

现在,我知道CI宽度应随着样本大小的增加而接近1。

不,这取决于上下文。原则上,宽度应收敛到。对于大量的蒙特卡洛模拟,覆盖范围应接近标称值。覆盖范围不取决于样本数量,除非构建CI的某些假设存在缺陷(这可能是OP所暗示的意思。“是的,所有模型都是错误的”)。0

参考是个人博客帖子中的评论。我不会太担心这种参考的有效性。另一方面,由Larry Wasserman拥有的博客往往写得很好。这让我想起了xkcd漫画:

http://xkcd.com/386/

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.