为什么频繁主义者假设检验偏向于拒绝具有足够大样本的零假设？

当我偶然发现这篇文章时，我只是在阅读有关贝叶斯因子的文章，这是一个完全不相关的问题

由于贝叶斯形式避免了模型选择偏差，评估了支持原假设的证据，包括模型不确定性，并且允许比较非嵌套模型，因此使用贝叶斯因子进行的假设检验比频繁假设检验更为稳健。具有相同的因变量）。同样，频繁性显着性检验偏向于拒绝具有足够大样本量的零假设。[重点添加]

在卡尔·弗里斯顿（Karl Friston）2012年在NeuroImage中的论文中，我已经看到过这种说法，他称其为经典推理的谬误。

我很难找到一个真正的教学方法来解释为什么这应该是正确的。具体来说，我想知道：

为什么会这样
如何防范
失败了，如何检测到它

hypothesis-testing frequentist

— z
source

这在某种程度上是有争议的，因为当null确实是真实的时，它是不正确的，但是由于这种情况很少（由于虚假相关性等各种复杂性），因此在大多数实际应用中可能都是正确的。假设地说，如果样本足够庞大，尽管有相当数量的不受控制的主持人，但由于一连串的调解员链可能存在数百个变量，因此可以检测到最弱的虚假相关性（例如r = .001）。可以说，这种关系实际上存在，因此，是否真的是“偏见”在海事组织中尚值得商...……

— Nick Stauner 2014年

@NickStauner，啊，这实际上很有道理！感谢您的直观解释！

— blz 2014年

塔尔·雅各尼（Tal Yarkoni）对弗里斯顿的文章发表了非常有启发性的评论：talyarkoni.org/blog/2012/04/25/…– 2014

— 乔纳

@jona，似乎我在这里遇到了所有的齿轮读者=）感谢您的参考，这确实看起来不错！

— blz 2014年

假设假设成立，那么该陈述就目前而言似乎完全是错误的，但这是一个真实的问题（如果样本足够大，则无论结果有多小，NHST都将几乎肯定会拒绝错误的null）。当人们发现问题时，通常表明假设检验不是他们所需要的。在这个答案中

— Glen_b 2014年

Answers:

对问题1的回答：之所以发生这种情况，是因为当真实差异恰好等于0时，在频繁性差异检验（即无差异/某种形式相等的零假设的检验）中，随着样本量的增加，值会变得任意小，与任意套利接近于零相反，这是不现实的（请参阅尼克·斯汤纳对《任择议定书》的评论）。的 -值变得任意小，因为频率论检验统计量的误差通常与样品尺寸减小，与结果即所有差异都具有足够大的样本大小任意水平显著。莎玛兹（Cosma Shalizi）对此博学了。 $p$ $p$

对问题2的回答：在常识性假设检验框架内，可以通过不仅仅推断出检测差异来预防这一情况。例如，可以将有关差异和对等的推论相结合，以使人们不赞成（或混淆！）效果证据的证据负担与不存在效果的证据的负担。没有效果的证据来自例如：

两个等效的单面测试（TOST），
一致最强大的试验等价，和
到等价的置信区间的方式（即，如果检验统计量％CI是内的先验当量/相关性-defined范围内，则一个在结束等价显着性水平）。 $1-2\alpha$ $\alpha$

这些方法所共有的是关于什么效应大小构成相关差异的先验 决定，以及根据差异至少与被视为相关的差异构成的原假设。

差异检验和等价检验的组合推论因此可以防止您以这种方式在样本量较大时描述的偏差（两两表显示了由组合检验差异而产生的四种可能性-实证虚假假设H -和等价-否定原假设，H）： $_{0}^{+}$ $_{0}^{-}$

组合测试中的差异和等效测试中的四种可能性

请注意左上象限：压倒性测试是一种测试，是的，您拒绝无差异的零假设，但是您也拒绝相关差异的零假设，所以是的有差异，但是您有先验的决定不关心因为它太小了。

问题3的答案：请参阅答案2。

— 亚历克西斯
source

像这样的答案就是为什么我一直来这里。谢谢！

— blz 2014年

这些组合测试称为“相关性测试”，但很少研究。但是，如果人们拒绝零假设，而通常的置信区间与相关区域不相干，则可以找到一种（保守的）相关性决策。因此，@ Alexis，在进行相关性测试时，您使用；在进行等效性测试时，您使用。

1 - α

$1-\alpha$

α

$\alpha$

2 α

$2\alpha$

— HorstGrünbusch2014年

为了补充问题1的答案，Cosma Shalizi撰写了相关博客文章

我很惊讶每个人都觉得这个问题是如此有用，尽管“迈克尔·卢·阿历克西斯”实际上更恰当地回答了“问题1的答案”，因为似乎几乎可以肯定这个问题会持续下去，也许您可以纠正答案可以这样说，从数学上来讲，根据偏倚的正常定义，假设检验实际上并不会因样本数量大而被偏见（实际上，相反，样本量小的问题可能会出问题）！

— Florian Hartig

我理解问题所在，并且我同意评估的意思-当无可置疑地！H0首先出现且假设您的功效接近1时，进行假设检验是毫无根据或具有误导性的，但这并不会使检验产生偏差，除非您对偏见的定义是，一种方法可以为您认为不应提出的问题提供正确的结果。

— Florian Hartig

如果原假设是真实的，则使用大样本的频繁检验不会显示出拒绝原假设的偏见。如果检验的假设是正确的，并且原假设是正确的，那么与小样本相比，没有更大的风险会导致拒绝原假设。如果null不为真，那么我们一定会很乐意拒绝它，因此大样本比小样本更频繁地拒绝虚假的事实不是“偏见”，而是适当的行为。

对“过度实验”的恐惧是基于这样的假设，即当虚无假设几乎成立时拒绝它是一件好事。但是，如果它几乎是正确的，那么它实际上是错误的！拒绝，但不要注意到（并清楚地报告）观察到的效果大小。它可能很小，因此不值得认真考虑，但是必须在考虑来自假设检验之外的信息后再做出决定。

— 迈克尔·卢
source

相信随着样本量的增长，频繁检验不会偏向于否定零假设是基于以下假设：假设在意义上和实质上不同于。

0

$0$

0 + really frickin' tiny

$0 + \text{really frickin' tiny}$

— 亚历克西斯（Alexis）2015年

@Alexis再次阅读第二段。我完全同意，真正动摇微小的物体并不重要，但从逻辑上讲也不是零。

— 迈克尔·卢

对不起，这对公众来说是毫无价值的评论，但是@MichaelLew，我真的很喜欢您的回答。第一句话很重要，我认为亚历克西斯的回答没有有效地阐明它（当然也很好）。

— 理查德·哈迪