如何计算均值的置信区间?


19

想象一下,您重复了三次实验。在每个实验中,您收集三次重复的测量值。与三种实验方法之间的差异相比,一式三份趋于相当接近。计算总和非常容易。但是,如何计算总体均值的置信区间呢?

样本数据:

实验1:34、41、39

实验2:45、51、52

实验3:29、31、35

假设实验中的重复值与每个实验的平均值都遵循高斯分布。实验中变化的SD小于实验方法中的SD。还假设每个实验中这三个值没有顺序。每行中三个值的从左到右顺序完全是任意的。

一种简单的方法是先计算每个实验的平均值:38.0、49.3和31.7,然后计算这三个值的平均值及其95%置信区间。使用此方法,总体平均值为39.7,95%置信区间为17.4至61.9。

这种方法的问题在于它完全忽略了三份重复之间的差异。我想知道是否没有一个很好的方法来说明这种差异。


1
没有答案,只是一个直观的观察。合并数据平均值(所有9个观测点)的CI为,仅基于均值的CI为39.7 ± 12.83 。不知道你的CI是做(错字?17没有27和51不是61?),我得到2.98的三种手段STD犯错,而4.300.975与2 DF位数牛逼DIST的。我认为您要查找的配置项位于这两者之间的某个位置-因为您有部分池。也可以考虑方差公式V Y = E [ V Y(39.7±2.13(39.7±12.832.984.300.975,每个CI都使用公式的一半Vÿ=Ë[Vÿ|ÿG]+V[Ëÿ|ÿG]
概率

2
@probabilityislogic:这三个实验方法的SEM为5.168(而不是您写的2.98),并且我在原始帖子中给出的置信区间(17.4至61.9)是正确的。SEM是通过SD(8.95)除以n的平方根(3的平方根)计算得出的。您除以n(3)。
Harvey Motulsky

我的错误,也应该在合并间隔中用6.40替换(那里有同样的错误)2.136.40
概率

以下链接会回答这个问题吗?talkstats.com/showthread.php/11554-mean-of-means

@TST,似乎有什么,但一个链接到维基百科上的合并方差。关心详细吗?
chl 2012年

Answers:


6

存在用于在平衡随机单向ANOVA模型的grandmean天然准确置信区间 事实上,很容易检查所观察到的装置的分布 ˉ ÿ ˉ ÿIID Ñμ τ 2 τ 2 = σ 2 b + σ 2 瓦特

ÿ一世Ĵμ一世艾德ñμ一世σw2Ĵ=1个Ĵμ一世艾德ñμσb2一世=1个一世
ÿ¯一世ÿ¯一世艾德ñμτ2,并且众所周知的是,所述的平方总和之间小号小号b有分布小号小号bĴτ2χ 2 - 1,并且独立于整体观察到的均值的 ˉ ýÑμτ2τ2=σb2+σw2Ĵ小号小号b
小号小号bĴτ2χ一世-1个2
。因此 ˉ ÿ -μ
ÿ¯ñμτ2一世
具有自由度为I1的Studentt分布,从中容易获得大约μ的精确置信区间。
ÿ¯-μ1个一世小号小号bĴ一世-1个
Ť一世-1个μ

请注意,这置信区间不过是经典的间隔,高斯平均只考虑组手段的意见ÿ¯一世。因此,您提到的简单方法是:

一种简单的方法是先计算每个实验的平均值:38.0、49.3和31.7,然后计算这三个值的平均值及其95%置信区间。使用此方法,总体平均值为39.7,95%置信区间为17.4至61.9。

是正确的。您对被忽略的变化的直觉是:

这种方法的问题在于它完全忽略了三份重复之间的差异。我想知道是否没有一个很好的方法来说明这种差异。

是错的。我还在/stats//a/72578/8402中提到了这种简化的正确性

更新12/04/2014

现在,一些细节都写在我的博客上:简化模型以获得置信区间


对在python中实现此解决方案有帮助吗?stackoverflow.com/questions/45682437/…–
blehman

7

这是线性混合效应模型中的估计问题。 问题在于,总体均值的方差是两个方差分量的加权和,必须分别进行估计(通过数据的ANOVA)。估计具有不同的自由度。因此,尽管可以尝试使用通常的小样本(Student t)公式为均值构造置信区间,但由于与均值的偏差不会完全遵循Student t分布,因此不太可能达到其名义覆盖范围。

Eva Jarosova最近(2010年)的文章“线性混合效应模型的估计”讨论了此问题。(从2015年开始,它似乎不再在网络上可用。)在“小型”数据集的情况下(即使如此,大约是这个数据集的三倍),她使用模拟来评估两个近似CI计算(即已知的Satterthwaite近似和“ Kenward-Roger方法”)。她的结论包括

仿真研究表明,协方差参数的估计质量以及对小样本的置信区间的调整可能会非常差。...差的估计不仅会影响常规区间的真实置信度,还会使调整无法进行。显然,即使对于平衡数据,三种类型的间隔[常规,Satterthwaite,KR]也可能存在很大差异。当观察到常规间隔与调整间隔之间的显着差异时,应检查协方差参数估计值的标准误差。另一方面,当[三种]类型的间隔之间的差异较小时,似乎不需要进行调整。

简而言之,一种好的方法似乎是

  1. 通过使用方差分量的估计值并假装适用t分布来计算常规CI。

  2. 还计算至少一个调整后的CI。

  3. 如果计算“接近”,请接受常规CI。否则,请报告没有足够的数据来生成可靠的配置项。


使用方差分量会导致我在原始帖子中计算出的置信区间相同。ANOVA表的480.7列之间具有2 df的SS,这意味着MS为240.3。SD为sqrt(MSbetween / n)= sqrt(240.3 / 3)= 8.95,这导致了我最初发布的相同CI(从17.4到61.9)。我发现很难遵循您引用的Jarasova论文,并且不确定在这里是否有意义(这似乎与重复测量设计有关)。???
Harvey Motulsky

@Harvey您的描述对我来说肯定是重复的措施!我相信Jarasova的论文就对了。
whuber

1
我想到的是实验室中的常见情况,其中一式三份只是三个不同的测试桶(或孔)。表中显示的三个顺序是任意的。第一个实验中的复制#2与第二个或第三个实验中的复制#2之间没有联系或相关性。每个实验只有三个测量值。因此,没有真正重复的措施。对?
Harvey Motulsky

更糟糕的是,这里有确切的学生分布。看我的答案。
斯特凡·洛朗

@whuber您为Eva Jarasova的文章提供的链接已死,并且Google搜索没有任何结果。您可以更正参考吗?
Placidia

0

您不可能有一个可以同时解决这两个问题的置信区间。你必须选一个。您可以从实验方差内的均方误差项中得出一个,从而可以说出您可以在多大程度上准确地估算实验中的值,也可以在两次实验之间进行估算。如果我只是做前者,我倾向于将其绘制在0左右而不是大均值附近,因为它没有告诉您有关实际均值的任何信息,而只是告诉您有关效果的信息(在本例中为0)。或者,您可以只绘制两个图并描述它们的作用。

您已经掌握了两者之间的关系。对于内部而言,就像在ANOVA中计算误差项以使MSE可以从中使用一样,CI的SE仅为sqrt(MSE / n)(在这种情况下,n = 3)。


实际上,您可以为每个均值和较大均值设定一个可靠的间隔。只需使用贝叶斯多层模型即可。有时,这种估计称为部分池。我认为问题在于样本很少。
Manoel Galdino

您也可以为每个均值和总体均值设定一个置信区间...但是它们是不同的东西...就像可信区间一样。我认为问题是关于研究方差内和两者之间的CI的总和。这一切仍然给您带来不同CI的含义,意味着不同的事情。(我也没有从字面上
约翰·约翰(John

1
另外,我的意思是不能真正做到“不能”。您可以以某种方式提出一个方程,该方程计算所有内容的一个置信区间。但这并不意味着任何明智的选择。那就是我的本意。
约翰(John

在写完评论几分钟后,我意识到我们不应该直接使用n。但是现在编辑它已经晚了=)。
Manoel Galdino

0

我认为,就算是原始数据的范围,总体均值的CI也太宽[17,62]。

该实验在化学上非常普遍。例如,在标准物质的认证中,您必须随机抽取整批中的某些瓶子,并且必须对每个瓶子进行重复分析。您如何计算参考值及其不确定性?有很多方法可以做到,但是最复杂的(我认为是正确的)是应用荟萃分析或ML(Dersimonian-Laird,Vangel-Rukhin等)

引导估计如何?


1
模拟(10,000次试验具有正态分布的主要影响和误差)表明,[21,58]是对称的均值95%CI。
ub

whuber:我很想知道您是如何进行这些模拟的。从原始数据引导?还是真正的模拟?如果是后者,则您使用了什么平均值和SD值来模拟数据?
哈维·莫图尔斯基
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.