为什么我们需要替代假设?


14

当我们进行测试时,我们最终会得到两个结果。

1)我们拒绝零假设

2)我们不能拒绝零假设。

我们不会谈论接受替代假设。如果我们不谈论接受替代假设,为什么我们根本需要替代假设?

这是更新: 有人可以给我两个例子:

1)拒绝原假设等于接受替代假设

2)拒绝原假设不等于接受替代假设


1
因为您正在尝试得出一些结论。如果不是零假设,则可能是替代假设(即使您不完全确定替代假设是否有效,如果您拒绝零假设)。当您拒绝原假设时,您说您有一些“证据”可以得出结论,该替代假设可能是正确的。
nbro

@nbro,谢谢,我在原始帖子中添加了问题。你可以看看吗?
user1700890

1
一般来说,我对假设检验不是很熟悉。最好等待有能力的人回答您的问题。
nbro

如果您的替代假设是原假设的补充,则根本没有用处。出于这个原因,没有人在课本之外使用替代假设。
阿克萨卡(Aksakal)

“我们不是在谈论接受替代性假设”-对于所有可能的“我们”而言并非如此。有些人做谈接受备择假设,和其他许多人认为它,即使他们尊重忌讳反对了。当没有合理的怀疑是真实的时,避免谈论接受替代性的假设是有些古怪的。但是,由于统计数据很容易被滥用,因此在这种情况下,学步法可能是一件好事,因为它在解释结果时要特别谨慎。
约翰·科尔曼

Answers:


8

我将关注“如果我们不谈论接受替代假设,为什么我们根本需要替代假设?”

因为它有助于我们选择有意义的检验统计量并将研究设计为具有较高的功效-当替代方案为真时,有很高的可能性拒绝无效值。没有选择,我们就没有权力的概念。

想象一下,我们只有一个零假设,没有其他选择。然后,没有关于如何选择具有较高功效的测试统计量的指导。我们可以说的是,“只要观察到一个统计值小于零的测试统计量,就拒绝该零值。” 我们可以选择任意值:可以绘制Uniform(0,1)随机数,并在它们小于0.05时拒绝null。这种情况很少发生在null(很少)的情况下,最多不超过5%的时间-但是,当null为false时,这种情况也很少见。因此,从技术上讲,这是一种统计检验,但作为支持或反对任何事物的证据,这毫无意义。

取而代之的是,通常我们有一些科学的,合理的替代假说(“有在我的实验治疗组和对照组之间的结果产生积极的影响”)。我们想为潜在的批评家辩护,这些批评者会以魔鬼的拥护者身份提出零假设(“我还没有说服-也许您的治疗方法实际上是有伤害的,或者根本没有效果,并且治疗方法上有任何明显的不同数据仅归因于采样差异”)。

考虑到这两个假设,现在我们可以通过选择一个检验统计量来建立一个强大的检验,该检验统计量的替代项下的典型值不太可能在空值下。(如果替代项为true,则远离2的正2样本t统计量将不足为奇,但是如果null为true,则令人惊讶。)然后我们找出null下的检验统计量的抽样分布,因此我们可以计算p值---并解释它们。当我们观察到在零值情况下不太可能发生的测试统计数据时,尤其是如果研究设计,样本大小等被选择具有较高的功效时,这为替代方法提供了一些证据。

那么,为什么我们不谈论“接受”替代假设呢?因为即使是功能强大的研究也没有提供完全严格的证据证明无效是错误的。它仍然是一种证据,但是比其他一些证据弱。


7

从历史上看,是否需要替代假设存在分歧。让我通过在频繁主义者统计的背景下考虑费舍尔和内曼的观点以及贝叶斯答案来解释这一分歧点。

  • 费舍尔 -我们不需要其他假设。我们可以使用拟合优度检验简单地检验零假设。结果是值,为零假设提供了证据。p

  • Neyman-我们必须在null和替代之间进行假设检验。该测试将以固定的预定比率导致类型1错误。结果是一个决定-拒绝或不拒绝级别的原假设。αα

    从决策理论的角度来看,我们需要一个替代方案-我们正在两种行动方案之间做出选择-并且因为我们应该报告测试的作用力 我们应该寻求最强大的测试,以在替代方案为真时有最大的机会拒绝。

    1p(Accept H0|H1)
    H0

    为了满足这两个观点,替代假设不能是模糊的“非 ”。H0

  • 贝叶斯 -我们必须考虑至少两个模型,并用数据更新它们的相对合理性。仅使用一个模型, 无论我们收集什么数据,我们都简单地使 。为了在此框架中进行计算,替代假设(或在这种情况下已知的模型)不能为定义不明确的“非 ”。我称它为定义不正确,因为我们无法编写模型。

    p(H0)=1
    H0p(data|not H0)


1
您的最后一点很出色,并且在出版物中经常忽略它们,这些出版物的全部论点都基于一个没有动机的NHST。
康拉德·鲁道夫

为什么“ ”定义不正确?H0
迈克尔

它是什么?您可以计算吗?p(data|notH0)
innisfree

@innisfree不是常客主义的概念,而是贝叶斯主义的概念。
迈克尔(Michael

尝试这样做,而不会引入至少2个模型...
innisfree

4

林不是100%肯定,如果这是一个正式要求,但通常是假设和备选假设是:详尽的补充1)和2)。那就是:1)它们不能同时为真;2)如果一个不正确,则另一个必须正确。

考虑对男孩和女孩之间的身高进行简单测试。在这种情况下,典型的零假设是。另一种假设是。因此,如果null不为真-替代方案必须为真。heightboys=heightgirlsheightboysheightgirls


1
我完全同意您的说法,但请注意,和通常都是无限大的原假设集。这也似乎很多相信,和不需要面面俱到,例如看到这个这个讨论。H0HaH0Ha
bi_scholar

2
@bi_scholar感谢您的讨论话题。我不是这方面的专家,但基于简单的推理,我相信它们必须详尽无遗。考虑一下这个奇怪的测试:有人发现5块岩石按顺序排列在道路上。他的:风做到了。他的:是外星人。现在,如果他测试风的可能性,并且发现概率为0.0001,那么他将拒绝风假设。但这并没有赋予他声称它是外星人的权利。他所能宣称的是,被风吹拂的机会很小。但是任何其他解释仍然是开放的。H0H1
卡罗里斯·孔切维奇(KarolisKoncevičius)

1
我同意。我的理由是,假设检验是关于接受或拒绝同时拒绝或接受。如果和并不详尽,则根本没有必要定义任何 ,因为即使当我们拒绝我们也无法接受,因为和之外还有其他假设也可能是正确的。不幸的是,我没有在第一个线程中阐明我的观点。H0HaH0HaHaH0HaH0Ha
bi_scholar

1
@innisfree可以在某种可能性框架中检验两点假设-当然。但是这个过程不会被称为“零假设检验”,而且是不精确的。即使它们都不为真,它也会选择最接近的一个为真。此外,关于功效-在计算检验功效时,可以选择另一种假设或效应大小,但是(在我看来)一旦进行检验,就应该忘记它。除非有一些先验信息告诉他数据中可能存在的影响。就像嘈杂的照片中的白色/黑色像素。
卡罗里斯·孔切维奇(KarolisKoncevičius)

1
@innisfree我很好奇这样的测试是什么样的,您能举一个小例子吗?我坚信除非通过对应于和详尽无遗否则我们不能通过拒绝来接受。θ=1H0θ{0,1}H0H1
bi_scholar

2

为什么我们完全需要替代假设?

在经典假设检验中,替代假设所发挥的唯一数学作用是,它通过所选检验统计量影响证据的排序。替代假设用于确定测试的适当检验统计量,等效于对所有可能的数据结果(从最有利于原假设(相对于指定的替代方法)到最不利于原假设的所有结果)进行有序排序(针对指定的替代方法)。一旦您对可能的数据结果进行了这种有序的排名,替代假设就不会在测试中发挥进一步的数学作用


正式的解释:在与任何经典假设测试可观察到的数据值你有一些测试统计量那将数据的所有可能结果映射到有序尺度,以衡量它是否更有利于原假设或替代假设。(在不失一般性的前提下,我们将假设较低的值更有助于原假设,而较高的值则更有助于替代假设。我们有时会说,检验统计量的较高值“越极端”,因为它们构成了更极端的情况)。检验的p值由下式给出:nx=(x1,...,xn)T:RnR

p(x)pT(x)P(T(X)T(x)|H0).

该p值函数完全确定测试中任何数据向量的证据。与选定的显着性水平结合使用时,它将确定任何数据向量的测试结果。(我们已经针对固定数目的数据点进行了描述,但是可以很容易地扩展为允许任意。)重要的是要注意,p值仅受其引起的有序刻度受检验统计量的影响nn,因此,如果将单调递增的变换应用于检验统计量,则对假设检验无影响(即,它是同一检验)。这种数学特性仅反映了这样一个事实,即检验统计量的唯一目的是在所有可能的数据向量的空间上诱导序数标度,以显示更有利于零值/替代值的向量。

替代假设仅通过函数T影响此度量,函数是根据整体模型中所述的零假设和替代假设选择的。因此,我们可以将检验统计量函数视为整体模型和两个假设的函数。例如,对于似然比检验,通过采用似然函数的上限值在与零假设和替代假设有关的参数范围内的比率(或比率的对数)来形成检验统计量。Tg(M,H0,HA)M


如果我们将测试与其他备选方案进行比较,这意味着什么?假设您有一个固定的模型并且想要进行两个不同的假设检验,将相同的空假设与两个不同的替代方案和。在这种情况下,您将具有两个不同的测试统计功能:MH0HAHA

T=g(M,H0,HA)T=g(M,H0,HA),

导致相应的p值函数:

p(x)=P(T(X)T(x)|H0)p(x)=P(T(X)T(x)|H0).

重要的是要注意,如果和是彼此的单调递增变换,则p值函数和是相同的,因此这两个检验是同一检验。如果函数和不是彼此的单调递增变换,则我们有两个真正不同的假设检验。TTppTT


2
我同意这一点,他说该检验旨在面对极端结果时拒绝原假设,而替代假设的作用是指出如果原假设为真,则结果将被视为极端
亨利·

1

我不想接受替代假设的原因是,这不是我们正在测试的东西。假设零假设为真,则零假设重要性检验(NHST)计算观察到的数据达到观察值(或更多)时的极端概率,换句话说,NHST计算以零假设为真这一事实为条件的概率值,。因此,这是假设原假设为真的数据的概率。它从不使用或给出假设的可能性(既不为null,也不为选择)。因此,当您观察到一个小的p值时,您所知道的就是在下观察到的数据似乎不太可能P(data|H0)H0,因此您正在收集针对无效数据的证据,无论采用哪种解释,都应予以支持。

在进行实验之前,您可以确定一个认为您的结果有意义的临界水平(),这意味着如果您的p值低于该水平,您可以得出结论,反对原假设的证据是如此之高,以至于数据必须源自其他数据生成过程,并且您基于该证据拒绝原假设。如果p值高于该水平,您将无法拒绝原假设,因为您的证据不足以使您相信样本来自不同的数据生成过程。α

提出替代假设的原因是,在开始采样之前,您可能已经想到了一个实验。制定替代假设还可以决定您使用单尾检验还是双尾检验,从而为您提供更多的统计能力(在单尾情况下)。但是从技术上讲,为了进行测试,您无需制定替代假设,您只需要数据即可。


NHST不计算 ; 它计算。区别很重要。P 数据与观察到的极高| H 0P(data|H0)P(data as extreme as that observed|H0)
innisfree,

@innisfree我同意,这就是我在同一句话中定义数据的方式。
Stefan

?我看不到定义数据的任何地方(通过这种方式或其他方式)
innisfree

即使是这样,为什么呢?为什么要用这种方式重新定义数据?我建议澄清一下p(data ..
innisfree,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.