假设拒绝拒绝null表示null为真显然是错误的。但是,在一个情况下空未被拒绝和相应的置信区间(CI)是窄和围绕着0,这是否没有提供证据为空?
我有两种想法:是的,实际上,这将提供证据表明效应几乎为0。但是,在严格的假设检验框架中,似乎无效效应及其对应的CI根本无法推理。那么,当CI的点估计不重要时,它的含义是什么?它是否也不能用于推理,还是可以像前面的示例中那样用于量化无效的证据?
鼓励提供具有学术参考意义的答案。
假设拒绝拒绝null表示null为真显然是错误的。但是,在一个情况下空未被拒绝和相应的置信区间(CI)是窄和围绕着0,这是否没有提供证据为空?
我有两种想法:是的,实际上,这将提供证据表明效应几乎为0。但是,在严格的假设检验框架中,似乎无效效应及其对应的CI根本无法推理。那么,当CI的点估计不重要时,它的含义是什么?它是否也不能用于推理,还是可以像前面的示例中那样用于量化无效的证据?
鼓励提供具有学术参考意义的答案。
Answers:
空假设说明了“所有模型都是错误的,但有些模型是有用的”的含义。如果不按字面意义或在上下文之外使用它们,它们可能是最有用的-也就是说,记住null的认知目的很重要。如果它可以被伪造,这是预期的目标,那么通过比较,替代方案将变得更加有用,尽管它仍然毫无意义。如果您拒绝空值,则是说效果可能不为零(或其他任何原因–空值假设也可以指定其他值来进行伪造)...那么那是什么?
您计算的效果大小是总体参数的最佳点估计。通常,被高估或被低估的机会都应该是一样的好,但是就像@Glen_b的评论所暗示的那样,它成为死心的靶心的机会是无穷的。如果命运的某种怪异转折(或通过构造-无论是哪种方式,我假设我们是在假设地说?),您的估计就直接落在了,这仍然没有太多证据表明该参数在置信区间内没有不同的值。置信区间的含义不会根据任何假设检验的重要性而改变,除非它可能以相关方式改变位置和宽度。
如果您不熟悉无效假设在字面上是真实的(模拟)总体中样本的估计大小估计是什么样的情况(或者如果您还没有看到它,并且只是在这里稍作统计, ),检查出杰夫·卡明的的舞蹈价值观。如果这些置信区间不足以适合您的口味,我尝试使用随机生成的样本(略低于)模拟R中的一些置信区间 每个来自 。我忘记设置种子,但在完成此答案之前,设置x=c()
并运行x=append(x,replicate(500,cor(rnorm(999999),rnorm(999999))))
了我所关心的次数,最终给了我6000个样本。这是分别使用hist(x,n=length(x)/100)
和的直方图和密度图plot(density(x))
:
正如人们所期望的,有证据表明,这些总体随机样本实际上具有零影响,从而产生了各种非零影响,并且这些估计值或多或少以正态分布在真实参数周围(skew(x)
= -.005,kurtosis(x)
= 2.85)。想象一下,您仅从一个样本中知道估算的价值,而不是真正的参数:为什么您希望参数比估计值更接近零而不是更接近?您的置信区间可能包括空值,但与从相反方向到您的样本效果大小的等效距离的值相比,该空值实际上似乎没有任何更多的合理性,而其他值可能更合理,尤其是您的点估计!
在实践中,如果您想证明某个效果或多或少为零,则需要定义您倾向于忽略或多或少的程度。我模拟了这些巨大的样本,得出的最大震级估计为。具有更真实的示例,我发现其中最大的 样品是 。同样,残差是正态分布的,因此它们不太可能出现,但要点是它们并非难以置信。
一般而言,CI可能比NHST更有用。它不仅仅表示假设参数很小可以忽略不计的想法。它表示该参数实际是什么的一个好主意。仍然可以决定这是否可以忽略不计,但也可以了解它可能是不可忽略的。有关置信区间的进一步倡导,请参见卡明(2014,2013)。
参考文献
-Cumming,G.(2013年)。了解新的统计数据:效应大小,置信区间和荟萃分析。Routledge。
-卡明(G.)(2014)。新的统计数据:原因和方式。心理科学,25(7),7–29。从http://pss.sagepub.com/content/25/1/7.full.pdf+html检索。
cor.test(rnorm(9999999),rnorm(9999999))
并获得了CI。因此,我推断,当我再次运行它时,我有95%的可能性会得到该范围内的新估计。再次运行,我的估计是; 我基于CI的推论是正确的!空值碰巧是由构造造成的,但我的证据会代替我的估计……