Morey等人(2015年)认为,置信区间具有误导性,并且与理解它们有关。其中,他们将精度谬误描述如下:
精度谬误
置信区间的宽度表示我们对参数知识的精度。狭窄的置信区间显示精确的知识,而宽的置信误差则显示不精确的知识。估计的精度和置信区间的大小之间没有必要的联系。看到这种情况的一种方法是,想象两个研究人员(一名高级研究员和一名博士生)正在分析实验中参与者的数据。为了使博士生受益,这项高级研究人员决定将参与者随机分为两组,每组25人,这样他们就可以分别分析一半的数据集。在随后的会议上,有一个两股另一个自己学生的牛逼置信区间的平均值。博士生的95 % CI为52 ± 2,而高级研究员的95 % CI为52 ± 2。CI为。
资深研究员指出,他们的结果大致上是一致的,他们可以使用各自两个点估计值的均等加权平均值作为真实平均值的总体估计。
但是,这名博士生认为,这两种方法的权重不应平均分配:她指出自己的CI的宽度是后者的一半,并且认为自己的估算更为准确,因此应加权更大。她的顾问指出,这是不正确的,因为对两种方法进行加权加权后得出的估算值将不同于对整个数据集进行分析得出的估算值,该估算值必须为。博士生的错误是假设CI直接表示数据后精度。
上面的示例似乎具有误导性。如果我们将一个样本随机分为两半,那么我们期望样本均值和标准误都接近。在这种情况下,使用加权平均值(例如,通过反误差加权)与使用简单算术平均值之间应该没有任何区别。但是,如果估计值不同并且其中一个样本的误差明显更大,则可能表明此类样本存在“问题”。
显然,在上面的示例中,样本大小相同,因此通过均值的平均值“合并”数据与整个样本的均值相同。问题在于,整个示例遵循的逻辑不明确,即首先将样本分为几部分,然后再重新合并以进行最终估计。
该示例可以重新措辞以得出完全相反的结论:
研究人员和学生决定将其数据集分为两半,并进行独立分析。之后,他们比较了自己的估计,似乎样本意味着他们计算出的差异很大,而且学生的估计的标准误也更大。该学生担心这可能会暗示其估计精度存在问题,但是研究人员暗示,置信区间和精度之间没有联系,因此这两个估计值都是可信赖的,并且可以发布其中的任何一个(随机选择),作为他们的最终估计。
所以我的问题是:
精确谬论真的是谬论吗?置信区间对精度有何评价?
Morey,R.,Hoekstra,R.,Rouder,J.,Lee,M.和Wagenmakers,E.-J. (2015)。将置信度置入置信区间的谬误。心理公告与评论,1-21。https://learnbayes.org/papers/confidenceIntervalsFallacy/