为什么统计文献中没有那么强调II型错误？

我已经看到很多情况，在各种研究文章中都提到了类型I错误（用alpha值表示）。我发现很少有研究人员考虑到功效或II型错误。

II型错误可能是一件大事吧？当替代假设实际上是错误的时，我们意外地拒绝了它。为什么强调alpha值而不是强调beta值？

当我进行第一年的统计时，我从来没有学会过Beta版-仅Alpha版。我认为这两个错误应同等对待。但是，似乎只强调了alpha。

hypothesis-testing type-i-and-ii-errors

+1原因是，传统上，首先固定类型I错误（又名或显着性水平），然后构造测试以最小化类型II错误（等效地，例如使功效最大化）。有关Wikipedia的有用文章，以了解此问题，这是有关Uniformly Most Powerful（UMP）测试的文章，en.wikipedia.org

α

$\alpha$

— wiki /

您对“我们已经接受了原假设”是错误的-我们从不接受。我们要么“拒绝null炒作”，要么“未能拒绝null炒作”，但是从不接受null炒作！

— 穴居人

爆炸-掠过我。感谢您指出了这一点。

注意不要将自己的经验与统计文献的整个领域相混淆；您几乎无法推断出您尚未阅读的材料的内容。

— Glen_b-恢复莫妮卡

@glen继续。一个聪明的头衔得到了更多的回应。

Answers:

这是一个很好的问题。让我先澄清一下：

对于“ [t] ype II错误[显着]”（或对于I类错误而言），这实际上并不意味着任何。当然，错过一个真实的效果可能非常重要。
同样，我们通常不“接受原假设”。（有关更多信息，在这里阅读我的答案可能会有所帮助：为什么统计学家说不重要的结果意味着“您不能拒绝零值”而不是接受零值假设？）

我认为（不幸的）您是对的，对功率和II型错误的关注较少。虽然我认为生物医学研究的情况正在改善（例如，资助机构和IRB现在经常需要进行功率分析），但我认为有两个原因：

我认为力量比简单的意义更难让人理解。（部分原因是它取决于许多未知因素，尤其是效果的大小，但还有其他因素）。
大多数科学（即，除了物理和化学之外）数学化程度不高。结果，对于研究人员来说，很难知道应该给他们的理论“效应大小”（不仅仅是）。 $\ne0$
传统上，科学家认为I型错误比II型错误更严重。

— gung-恢复莫妮卡
source

和往常一样，启发人-尤其是对于非数学化的:-) ...我喜欢这个措辞...我想知道您是否可以在第三点上扩大一点...这种偏见有任何依据吗？我知道这是真的，但是为什么您会这样呢？是因为这是关于p值的奖杯，而没有其他关系？

— Antoni Parellada'3

谢谢@AntoniParellada。我会考虑我还能添加些什么。

— gung-恢复莫妮卡

我要澄清第3点），为什么科学家认为I型错误更严重。无效假设通常是某种“现状”，例如，这种新药的作用是0。我们喜欢现状，而举证责任则由研究者来证明。因此，我们要限制I类错误，即我们错误地拒绝了现状。海事组织，这种对现状的依恋只是哲学上的。如果您想改变我的观点，则必须证明这一点。

— 海森堡，2016年

在实践中，人们很容易想到II型错误的重要性更大，即不拒绝null的代价很高。例如，如果人类面临僵尸流行病，我敢肯定，态度将是“即使可能不起作用也尝试任何药物”，而不是“您必须在使用前证明它起作用”。

— 海森堡

@Heisenberg的补充：在II型错误最重要的情况下，应该考虑在点假设检验和等效检验之间切换。在您的示例中，必须证明拟议的伍斯特酱料至少不会使僵尸流行病恶化。然后错误率改变了它们的作用，最重要的错误率又由设计确定。同样，如果您对错误的决策有一定的成本估算，则应考虑一种决策规则，该规则可最大程度地降低风险，并且（不必）确定特定的I类错误率。

— HorstGrünbusch16年

原因是我们根本不知道实际的II型错误率，而且我们永远也不会。它取决于我们通常不知道的参数。反过来，如果我们知道此参数，则无需进行统计检验。

但是，我们可以计划一个实验，以便在某些替代方案成立的情况下满足特定的II型错误率。这样，我们将选择一个不会浪费资源的样本数量：要么是因为测试最终并没有拒绝，要么是因为已经很小的样本数量就足以拒绝该假设。

— 霍斯特·格伦布施
source