上周,我参加了人格与社会心理学协会的一次会议,在该会议上,我看到Uri Simonsohn的演讲,前提是使用先验能力分析来确定样本量实际上是无用的,因为其结果对假设如此敏感。
当然,这种说法违背了我在方法论课上所学的知识,也违背了许多著名方法学家的建议(最著名的是Cohen,1992年),因此Uri提出了一些与他的主张有关的证据。我试图在下面重新创建一些证据。
为简单起见,让我们假设您有两组观察结果,并猜测效果大小(通过标准化均值差衡量)为。标准功率计算(使用下面的软件包完成)将告诉您,需要观察才能获得此设计的80%功率。128R
pwr
require(pwr)
size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")
但是,通常,我们对效果的预期大小的猜测(至少是在我所研究的社会科学领域)至少是-粗略的猜测。如果我们对效果的大小有些怀疑,那会发生什么?快速功效计算可以告诉您,如果效果的大小是而不是,则需要次观察- 是为的效果具有足够功效的数量的倍。同样,如果效果的大小为,则只需要进行观察,即需要有足够的能力才能检测到的效果的70%.5 200 1.56 .5 .6 90 .50。实际上,估计观测值的范围非常大到。200
解决此问题的一种方法是,您可以通过过去的文献或通过试验来收集有关效果大小的证据,而不是对效果的大小进行纯粹的猜测。当然,如果您要进行试点测试,则希望试点测试足够小,而不仅仅是为了确定运行研究所需的样本量而不仅仅是运行某个版本的研究(例如,希望中试中使用的样本量小于您研究的样本量)。
乌里·西蒙索恩(Uri Simonsohn)认为,用于确定功率分析中使用的效应大小的先导测试是没有用的。考虑下面的模拟R
。此模拟假定人口效应大小为。然后,它将进行次大小为40的“试点测试”,并从10000个试点测试中的每一个中列出建议的1000 牛
set.seed(12415)
reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)
for(i in 1:reps)
{
x <- rep(c(-.5, .5), pilot_n_per_group)
y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
# Calculate the standardized mean difference
size <- (mean(y[x == -.5]) - mean(y[x == .5])) /
sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)
n <- 2 * pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")$n
ns[i] <- n
}
下面是基于此模拟的密度图。我已经省略了建议进行以上观察的试点测试,以使图像更易解释。即使只关注不太极端的模拟结果,在试验中推荐的也有很大的差异。500 Ñ 小号1000
当然,我敢肯定,随着设计变得越来越复杂,对假设问题的敏感性只会越来越差。例如,在需要规范随机效果结构的设计中,随机效果结构的性质将对设计的功能产生重大影响。
那么,你们对这个论点怎么看?先验能力分析本质上是没有用的吗?如果是这样,那么研究人员应如何计划研究规模?