通常,您可以使用更多数据继续对可能要测试的任何参数进行估计。一旦测试达到一定程度的半任意重要程度,停止数据收集是做出错误推断的一种好方法。分析师可能会误解重大结果,因为有迹象表明工作已完成是内曼·皮尔森(Neyman-Pearson)框架的许多意想不到的后果之一,根据这种观点,人们将p值解释为无保留地拒绝null或未能拒绝null的原因,具体取决于他们落在临界阈值的哪一边。
如果不考虑贝叶斯主义对频繁主义者范式的替代(希望有人会这样做),则置信区间将继续提供更多信息,远远超出可以拒绝基本零假设的程度。假设收集更多的数据只会使您的基本意义测试达到更大的意义(并且不会揭示您先前对意义的发现是假阳性),那么您可能会发现这是无用的,因为您会以两种方式拒绝null。但是,在这种情况下,您对相关参数的置信区间将继续缩小,从而提高了可精确描述您所关注人群的置信度。
这是r中的一个非常简单的示例–测试模拟变量的零假设:μ = 0
One Sample t-test
data: rnorm(99)
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.377762241 -0.006780574
sample estimates:
mean of x
-0.1922714
t.test(rnorm(99))
α = .05rnorm
set.seed(8);t.test(rnorm(99,1))
μ = [ 0.69 ,1.12 ]
μ = 0.8mu=.8
set.seed(8);t.test(rnorm(999,1),mu=.8)
μ = 0μ = 0.8μ = [ 0.90 ,1.02 ]μ = 0.89
H0:μ = 0.9set.seed(9);t.test(rnorm(999,1),mu=.9)
逐步测试更严格的零假设,或者更好地测试,仅关注缩小您的置信区间,这只是进行方法之一。当然,大多数拒绝零假设的研究为基于替代假设的其他研究奠定了基础。例如,如果我正在测试一个相关性大于零的替代假设,那么我可以在后续研究中测试调解人或主持人……而在我从事此研究的同时,我一定要确保我可以复制原始结果。
要考虑的另一种方法是等效测试。如果您想得出一个参数在某个可能值范围内的结论,而不仅仅是与单个值不同,则可以根据传统的替代假设指定希望该参数位于的值范围,并对其进行测试针对一组不同的零假设,这些零假设一起代表参数在该范围之外的可能性。这最后一种可能性可能与您编写时所想到的最相似:
我们有“一些证据”证明替代方案是正确的,但是我们不能得出这个结论。如果我真的想得出结论,那...
set.seed(8)
rnorm(99)
rnorm(99,1)-1
μ = 0.8- 0.2 ≤ μ ≤ 0.2
require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)
tost
μ = [ - 0.27 ,0.09 ]rnorm(999)
μ = [ - 0.09 ,0.01 ]
我仍然认为置信区间比等效测试结果更有趣。它代表了数据表明总体均值比替代假设更具体的含义,并且表明我可以有把握地相信,它位于比替代假设中指定的更小的间隔内。为了演示,我将再次滥用我不切实际的仿真能力,并使用set.seed(7);tost(rnorm(999),epsilon=.09345092)
:“肯定”,p = .002。