我的问题可以改写为“如何使用大数据评估抽样误差”,特别是对于期刊出版物。这是说明挑战的示例。
通过一个非常大的数据集(来自100多家医院的100000例独特患者及其处方药),我有兴趣估算服用特定药物的患者比例。得到这个比例很简单。它的置信区间(例如,参数或自举)非常紧密/狭窄,因为n非常大。尽管样本量很大很幸运,但我仍在寻找一种方法来评估,呈现和/或可视化某些形式的错误概率。尽管置入/可视化置信区间似乎无益(如果没有误导)(例如95%CI:.65878-.65881),但似乎也无法避免一些不确定性陈述。
请让我知道你的想法。我将不胜感激有关该主题的任何文献。即使样本量很大也可以避免对数据过度自信的方法。