在第一个实验的95%置信区间内,重复实验的哪个比例的效应大小?


12

让我们坚持理想的情况,使用随机抽样,高斯总体,均等方差,无P黑客攻击等。

步骤1.您运行一个实验,说比较两个样本均值,然后为这两个总体均值之间的差异计算95%的置信区间。

第2步。您进行了更多的实验(数千个)。由于随机抽样,平均值之间的差异因实验而异。

问题:步骤2中的实验收集所得的均值之间的差异的哪一部分位于步骤1的置信区间内?

那无法回答。这完全取决于步骤1中发生的情况。如果步骤1中的实验非常不典型,则该问题的答案可能非常低。

因此,想象两个步骤都重复了很多次(步骤2重复了很多次)。我认为,现在应该有可能对重复实验的平均比例有一个期望,该效应大小在第一次实验的95%置信区间内。

似乎需要了解这些问题的答案,以评估研究的可重复性,这是一个非常热门的领域。


对于每个原始(第1步)实验,将x i定义为在原始结果的置信区间内产生发现的后续(第2步)结果的分数。您要计算x的经验分布?ixix
马修·冈恩

是的,您了解我的要求
Harvey Motulsky

@MatthewGunn询问您是否希望“捕获分数”的经验分布用于将来的观察。您的帖子问“ ...我想,应该有可能对重复实验的平均比例得出一个期望值,即在第一个实验的95%置信区间内”。这不是分布,而是期望值(平均值)。

Whuber的分析很棒,但是如果您需要引用,那么这里有一篇论文非常详细地讨论了这个问题:Cumming和Maillardet,2006,置信区间和复制:下一个均值将落在哪里?。他们称之为捕获置信区间的百分比
变形虫说莫妮卡

Answers:


12

分析

因为这是一个概念上的问题,为简单起见让我们考虑这种情况,其中,置信区间[ ˉ X1 + Ž α / 2小号1 / 1α被构造为一个平均值μ使用随机样本X1大小的ñ和第二随机样本X2取大小,全部来自同一普通μσ2的分布。(如果愿意,可以用自由度为n1的Studentt分布中的值替换Zs;以下分析不会改变。)

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1)nx(2)m(μ,σ2)Ztn1

第二个样本的平均值位于第一个样本确定的CI内的机会为

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

因为第一个样本均值与第一个样本标准差(这需要正态性)独立,而第二个样本与第一个样本标准偏差独立,所以样本均值独立于。此外,对于该对称间隔。因此,为随机变量写并平方两个不等式,则所讨论的概率与x¯(1)s(1)U=x¯(2)x¯(1)s(1)Zα/2=Z1α/2Ss(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

期望定律表明的均值为,方差为U0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

由于是正态变量的线性组合,因此它也具有正态分布。因此,是乘以变量。我们已经知道是乘以变量。因此,是具有分布的变量的倍。 所需概率由F分布给出为UU2σ2(1n+1m)χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)

(1)F1,n1(Z1α/221+n/m).

讨论区

一个有趣的情况是,第二个样本的大小与第一个样本的大小相同,因此且只有和确定概率。下面是的值作图为。n/m=1nα(1)αn=2,5,20,50

数字

随着增加,曲线在每个处上升到极限值。传统测试尺寸用垂直灰线标记。对于较大值,的极限机会约为。αnα=0.05n=mα=0.0585%

通过了解此限制,我们将了解小样本量的细节,并更好地了解问题的症结。随着增大,分布接近分布。根据标准正态分布,概率近似为n=mFχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

例如,对于,和。因此,随着增加,在处曲线获得的极限值为。您可以看到它几乎已经达到(机会为。α=0.05Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

对于较小的,与互补概率之间的关系几乎完全是幂定律,而CI是CI 不能覆盖第二均值的风险。αα 另一种表达方式是对数互补概率几乎是的线性函数。极限关系约为logα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

换句话说,对于较大的和,接近传统值任何地方,将接近n=mα0.05(1)

10.166(20α)0.557.

(这使我想起了很多我在/stats//a/18259/919上发布的重叠置信区间的分析。的确,那里的魔力几乎是魔力的倒数此处为。此时,您应该能够根据实验的可重复性重新解释该分析。)1.910.557


实验结果

这些结果通过简单的模拟得到了证实。以下R代码返回覆盖率,使用计算的机会以及Z分数以评估它们之间的差异。Z分数的大小通常小于,与(甚至是否计算或 CI)无关,这表明公式的正确性。2 Ñ μ σ α ž 1 (1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

您说使用t代替z不会有太大的区别。我相信您,但尚未检查。如果样本量较小,则两个临界值可能相差很大,并且t分布是计算CI的正确方法。为什么您更喜欢使用z?
Harvey Motulsky

纯粹是说明性的,更简单。使用,有趣的是图中的曲线从高处开始并下降到其极限。尤其是,与大样本相比,小样本重现重要结果的机会要大得多!请注意,没有什么要检查的,因为您可以自由地将解释为适当的Student t分布(或您可能希望命名的任何其他分布)的百分比。分析没有任何变化。如果确实要查看特定效果,请取消注释代码中的行。ž αZtZαqt
whuber

1
+1。这是一个很好的分析(您的回答对它的含义没有太多的支持)。我刚遇到一篇非常详细地讨论这个问题的论文,我认为您可能会感兴趣:Cumming&Maillardet,2006年,《置信区间与复制:下一个均值将落在何处?。他们称之为捕获置信区间的百分比
变形虫说恢复莫妮卡

@Amoeba谢谢您的参考。我特别赞赏其中的一个一般性结论:“复制对于科学方法至关重要,研究人员不应仅仅因为它使单个研究固有的不确定性就对它视而不见。”
豪伯

1
更新:由于姐妹线程中的持续讨论,我现在相信我在上述评论中的推理是正确的。95%的配置项具有83%的“复制捕获”,但这是关于重复采样的陈述,不能解释为给出以一个特定的置信区间为条件的概率,至少在没有进一步假设的情况下。(也许最好删除此注释和以前的注释,以免引起其他读者的困惑。)
变形虫说Reinstate Monica

4

[编辑以修复WHuber指出的错误。]

我更改了@Whuber的R代码以使用t分布,并将覆盖率作为样本大小的函数进行绘制。结果如下。在高样本量的情况下,结果当然符合WHuber的结果。

在此处输入图片说明

这是经过改编的R代码,将alpha设置为0.01或0.05运行两次。

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

这是制作图形的GraphPad Prism文件。


我相信您的图使用t分布,原因是存在一个错误:您T在循环外设置了值!如果您想查看正确的曲线,只需使用R代码结尾处给出的理论结果直接绘制它们即可(而不是依赖于模拟结果):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
whuber

1
@whuber。kes!你当然是对的。不好意思 我已经解决了。正如您指出的那样,样本量很小,覆盖率更高。(我固定了模拟结果,但未尝试使用您的理论功能。)
Harvey Motulsky

我很高兴您解决了这个问题,因为对于小样本量的覆盖率有多高非常有趣。如果我们希望(在进行任何实验之前)以概率(比如说)保证,如果我们希望确保值,我们也可以反过来使用公式确定要使用的值。第二个实验将位于从第二个实验确定的双面置信区间内。作为常规做法,这样做可能是解决一些对NHST的批评的有趣方式。 p = 0.95 1 - αZα/2p=0.951α
ub

@whuber我认为下一步是查看覆盖范围。到目前为止,我们已经获得了平均覆盖率(许多首次实验的平均值,每项都有许多第二次实验的平均值)。但是根据第一个实验是什么,在某些情况下平均覆盖率会很差。看到分布会很有趣。我正在努力学习R,以找出答案。
哈维·莫图尔斯基

关于分布,请参阅我在上面的评论中链接到的论文。
变形虫说恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.