样本量很大时的置信区间


14

我的问题可以改写为“如何使用大数据评估抽样误差”,特别是对于期刊出版物。这是说明挑战的示例。

通过一个非常大的数据集(来自100多家医院的100000例独特患者及其处方药),我有兴趣估算服用特定药物的患者比例。得到这个比例很简单。它的置信区间(例如,参数或自举)非常紧密/狭窄,因为n非常大。尽管样本量很大很幸运,但我仍在寻找一种方法来评估,呈现和/或可视化某些形式的错误概率。尽管置入/可视化置信区间似乎无益(如果没有误导)(例如95%CI:.65878-.65881),但似乎也无法避免一些不确定性陈述。

请让我知道你的想法。我将不胜感激有关该主题的任何文献。即使样本量很大也可以避免对数据过度自信的方法。


7
您可以回想起未采样的错误,可以避免过分自信。如果采样和测量存在偏差,那么它们仍然存在。此外,无论您是要计算唯一(我想说“与众不同”)患者还是以其他方式定义的观察结果,都有(我认为)簇结构将同一患者的药物和以任何方式一起给药的药物联系起来,最简单的置信区间计算不考虑这些因素。除了与其他数据集进行比较和记录数据生成之外,我没有其他解决方案。
尼克·考克斯

Answers:


10

在我的一些研究中也出现了这个问题(作为流行病建模者,我有自己的能力来制作自己的数据集,并且拥有足够大的计算机,它们的大小基本上可以任意设定。一些想法:

  • 在报告方面,我认为您可以报告更精确的置信区间,尽管这样做的实用性在一定程度上值得怀疑。但这并没有错,对于如此大的数据集,我认为并没有太多人要求报告两个需求置信区间然后抱怨我们真的希望它们都四舍五入到两位数,等等。
  • 在避免过度自信方面,我认为关键是要记住精度准确性是不同的东西,并避免尝试将两者混为一谈。当您拥有大量样本时,很容易陷入对估计效果的精确度的误解,而不认为它也可能是错误的。我认为这是关键-有偏见的数据集在N = 10或100或1000或100,000处会有偏倚。

大型数据集的全部目的是提供精确的估计,因此我认为您不必回避这种精度。但是您必须记住,仅通过收集大量不良数据就无法改善不良数据。


我认为大量的不良数据仍然比少量的不良数据要好。
阿克萨卡(Aksakal)

@Aksakal为什么?一个完全错误的答案仍然是错误的。
Fomite 2015年

@Fomite-是的,但是您更有信心说错了:)
Duncan

6

我自己的手稿中出现了这个问题。

1.报告选项: 如果要报告的配置项只有一个或几个,则报告“(例如95%CI:.65878-.65881)”不是太冗长,它突出了CI的准确性。但是,如果您有大量配置项,则总括声明可能会对读者有所帮助。例如,我通常会报告一些结果,即“在此样本量下,每个比例的95%置信度误差小于+/- .010。” 我通常在“方法”或“表”或“图”的标题中,或在两者中都报告类似的内容。

2.即使在样本量很大的情况下,也要避免“过分自信”: 对于100,000个样本,在报告比例的CI时,中心极限定理将使您安全。因此,在您描述的情况下,您应该可以,除非存在我不知道的其他假设违规情况(例如,违反了iid)。


0

不要报告置信区间。而是报告确切的样本量和比例。读者将能够按自己希望的任何方式来计算自己的CI。


4
为什么不将这种推理应用于所有定量数据报告?
whuber

@whuber,好问题。我全心全意地进行可重复的研究,希望每个人都发布他们的数据集。
阿克萨卡(Aksakal)

6
我并不是说要把它当作建议。即使每个人都发布了他们的数据集,如果他们未能提供对它们的分析,并且包括不确定性分析,他们也会放弃其科学职责。您似乎朝着一个在逻辑上将以这样的建议结尾的方向:科学家除了发布数据外什么都不做,根本不做任何分析!这最终是对不报告配置项的建议的起诉。相反,这表明无论样本大小如何,都应提供某种统计分析。
whuber

0

考虑一下100家不同医院的比例未收敛到相同平均值的可能性。您是否测试了组间差异?如果各医院之间存在可测量的差异,则不支持基于共同的正态分布生成样本的假设,并且您不应该将其汇总。

但是,如果您的数据确实来自正态分布的大样本,那么您将不会找到有用的“不确定性陈述”作为数据的属性,而是在反思为什么或为什么不应该对统计数据进行概括时-您应该指出一些收藏中固有的偏见,或缺乏平稳性等。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.