当我们进行测试时,我们最终会得到两个结果。
1)我们拒绝零假设
2)我们不能拒绝零假设。
我们不会谈论接受替代假设。如果我们不谈论接受替代假设,为什么我们根本需要替代假设?
这是更新: 有人可以给我两个例子:
1)拒绝原假设等于接受替代假设
2)拒绝原假设不等于接受替代假设
当我们进行测试时,我们最终会得到两个结果。
1)我们拒绝零假设
2)我们不能拒绝零假设。
我们不会谈论接受替代假设。如果我们不谈论接受替代假设,为什么我们根本需要替代假设?
这是更新: 有人可以给我两个例子:
1)拒绝原假设等于接受替代假设
2)拒绝原假设不等于接受替代假设
Answers:
我将关注“如果我们不谈论接受替代假设,为什么我们根本需要替代假设?”
因为它有助于我们选择有意义的检验统计量并将研究设计为具有较高的功效-当替代方案为真时,有很高的可能性拒绝无效值。没有选择,我们就没有权力的概念。
想象一下,我们只有一个零假设,没有其他选择。然后,没有关于如何选择具有较高功效的测试统计量的指导。我们可以说的是,“只要观察到一个统计值小于零的测试统计量,就拒绝该零值。” 我们可以选择任意值:可以绘制Uniform(0,1)随机数,并在它们小于0.05时拒绝null。这种情况很少发生在null(很少)的情况下,最多不超过5%的时间-但是,当null为false时,这种情况也很少见。因此,从技术上讲,这是一种统计检验,但作为支持或反对任何事物的证据,这毫无意义。
取而代之的是,通常我们有一些科学的,合理的替代假说(“有是在我的实验治疗组和对照组之间的结果产生积极的影响”)。我们想为潜在的批评家辩护,这些批评者会以魔鬼的拥护者身份提出零假设(“我还没有说服-也许您的治疗方法实际上是有伤害的,或者根本没有效果,并且在治疗方法上有任何明显的不同数据仅归因于采样差异”)。
考虑到这两个假设,现在我们可以通过选择一个检验统计量来建立一个强大的检验,该检验统计量的替代项下的典型值不太可能在空值下。(如果替代项为true,则远离2的正2样本t统计量将不足为奇,但是如果null为true,则令人惊讶。)然后我们找出null下的检验统计量的抽样分布,因此我们可以计算p值---并解释它们。当我们观察到在零值情况下不太可能发生的测试统计数据时,尤其是如果研究设计,样本大小等被选择具有较高的功效时,这为替代方法提供了一些证据。
那么,为什么我们不谈论“接受”替代假设呢?因为即使是功能强大的研究也没有提供完全严格的证据来证明无效是错误的。它仍然是一种证据,但是比其他一些证据弱。
从历史上看,是否需要替代假设存在分歧。让我通过在频繁主义者统计的背景下考虑费舍尔和内曼的观点以及贝叶斯答案来解释这一分歧点。
费舍尔 -我们不需要其他假设。我们可以使用拟合优度检验简单地检验零假设。结果是值,为零假设提供了证据。
Neyman-我们必须在null和替代之间进行假设检验。该测试将以固定的预定比率导致类型1错误。结果是一个决定-拒绝或不拒绝级别的原假设。
从决策理论的角度来看,我们需要一个替代方案-我们正在两种行动方案之间做出选择-并且因为我们应该报告测试的作用力
我们应该寻求最强大的测试,以在替代方案为真时有最大的机会拒绝。
为了满足这两个观点,替代假设不能是模糊的“非 ”。
贝叶斯 -我们必须考虑至少两个模型,并用数据更新它们的相对合理性。仅使用一个模型,
无论我们收集什么数据,我们都简单地使
。为了在此框架中进行计算,替代假设(或在这种情况下已知的模型)不能为定义不明确的“非 ”。我称它为定义不正确,因为我们无法编写模型。
林不是100%肯定,如果这是一个正式要求,但通常是零假设和备选假设是:详尽的补充1)和2)。那就是:1)它们不能同时为真;2)如果一个不正确,则另一个必须正确。
考虑对男孩和女孩之间的身高进行简单测试。在这种情况下,典型的零假设是。另一种假设是。因此,如果null不为真-替代方案必须为真。
为什么我们完全需要替代假设?
在经典假设检验中,替代假设所发挥的唯一数学作用是,它通过所选检验统计量影响证据的排序。替代假设用于确定测试的适当检验统计量,等效于对所有可能的数据结果(从最有利于原假设(相对于指定的替代方法)到最不利于原假设的所有结果)进行有序排序(针对指定的替代方法)。一旦您对可能的数据结果进行了这种有序的排名,替代假设就不会在测试中发挥进一步的数学作用。
正式的解释:在与任何经典假设测试可观察到的数据值你有一些测试统计量那将数据的所有可能结果映射到有序尺度,以衡量它是否更有利于原假设或替代假设。(在不失一般性的前提下,我们将假设较低的值更有助于原假设,而较高的值则更有助于替代假设。我们有时会说,检验统计量的较高值“越极端”,因为它们构成了更极端的情况)。检验的p值由下式给出:
该p值函数完全确定测试中任何数据向量的证据。与选定的显着性水平结合使用时,它将确定任何数据向量的测试结果。(我们已经针对固定数目的数据点进行了描述,但是可以很容易地扩展为允许任意。)重要的是要注意,p值仅受其引起的有序刻度受检验统计量的影响,因此,如果将单调递增的变换应用于检验统计量,则对假设检验无影响(即,它是同一检验)。这种数学特性仅反映了这样一个事实,即检验统计量的唯一目的是在所有可能的数据向量的空间上诱导序数标度,以显示更有利于零值/替代值的向量。
替代假设仅通过函数影响此度量,函数是根据整体模型中所述的零假设和替代假设选择的。因此,我们可以将检验统计量函数视为整体模型和两个假设的函数。例如,对于似然比检验,通过采用似然函数的上限值在与零假设和替代假设有关的参数范围内的比率(或比率的对数)来形成检验统计量。
如果我们将测试与其他备选方案进行比较,这意味着什么?假设您有一个固定的模型并且想要进行两个不同的假设检验,将相同的空假设与两个不同的替代方案和。在这种情况下,您将具有两个不同的测试统计功能:
导致相应的p值函数:
重要的是要注意,如果和是彼此的单调递增变换,则p值函数和是相同的,因此这两个检验是同一检验。如果函数和不是彼此的单调递增变换,则我们有两个真正不同的假设检验。
我不想接受替代假设的原因是,这不是我们正在测试的东西。假设零假设为真,则零假设重要性检验(NHST)计算观察到的数据达到观察值(或更多)时的极端概率,换句话说,NHST计算以零假设为真这一事实为条件的概率值,。因此,这是假设原假设为真的数据的概率。它从不使用或给出假设的可能性(既不为null,也不为选择)。因此,当您观察到一个小的p值时,您所知道的就是在下观察到的数据似乎不太可能,因此您正在收集针对无效数据的证据,无论采用哪种解释,都应予以支持。
在进行实验之前,您可以确定一个认为您的结果有意义的临界水平(),这意味着如果您的p值低于该水平,您可以得出结论,反对原假设的证据是如此之高,以至于数据必须源自其他数据生成过程,并且您基于该证据拒绝原假设。如果p值高于该水平,您将无法拒绝原假设,因为您的证据不足以使您相信样本来自不同的数据生成过程。
提出替代假设的原因是,在开始采样之前,您可能已经想到了一个实验。制定替代假设还可以决定您使用单尾检验还是双尾检验,从而为您提供更多的统计能力(在单尾情况下)。但是从技术上讲,为了进行测试,您无需制定替代假设,您只需要数据即可。