如果我们在一个大型研究中未能拒绝零假设,那不是零证据吗?


59

无效假设重要性检验的基本限制是,它不允许研究人员收集有利于无效的证据(来源

我在多个地方都看到过这种说法,但我找不到理由。如果我们进行了大量的研究,我们没有发现统计学显著的证据对原假设,这不就是证据零假设?


3
但是,我们从假设零假设是正确的开始分析。这个假设可能是错误的。也许我们没有足够的力量,但这并不意味着这个假设是正确的。
SmallChess

13
如果您还没有阅读它,我强烈推荐雅各布·科恩(Jacob Cohen)的《地球是圆形的》(p <.05)。他强调,只要样本量足够大,您就可以拒绝几乎所有零假设。他还赞成使用效应大小和置信区间,并且对贝叶斯方法进行了简洁的介绍。另外,它是一种纯粹的阅读乐趣!
Dominic Comtois

7
零假设只能错误的。...不能拒绝null并不表示存在足够接近的替代方案。
Glen_b

3
参见stats.stackexchange.com/questions/85903。但另请参阅stats.stackexchange.com/questions/125541。如果通过进行“大型研究”来表示“足够大以具有足够的能力检测感兴趣的最小效应”,那么拒绝失败可以解释为接受无效值。
变形虫说莫妮卡(Monica)恢复职权

7
考虑一下Hempel的确认悖论。检查乌鸦并确认它为黑色表示支持“所有乌鸦均为黑色”。但是从逻辑上检查一个非黑色物体,并确认它不是乌鸦,也必须支持该命题,因为“所有乌鸦都是黑色”和“所有非黑色物体都不是乌鸦”这两个语句在逻辑上是等效的...解决方案是非黑色物体的数量远大于乌鸦的数量,因此黑色乌鸦对命题的支持相应地大于非黑色非乌鸦的微小支持。

Answers:


63

未能拒绝无效假设证据是无效假设是正确的,但它可能不是特别好的证据,并且当然也不能证明无效假设。

让我们走一小段弯路。考虑一下旧的陈词滥调:

缺乏证据并不意味着缺乏证据。

尽管它很流行,但这种说法是胡说八道。如果您找不到某物,那绝对是没有物的证据。证据的好坏取决于您的搜索有多彻底。粗略的搜索不能提供充分的证据。详尽的搜索提供了有力的证据。

现在,回到假设检验。当您运行假设检验时,您正在寻找证据证明原假设不成立。如果你没有找到它,那么肯定的证据表明,零假设正确的,但有多强的证据?要知道这一点,您必须知道使您拒绝原假设的证据有可能逃脱搜索的可能性。也就是说,您的测试中出现假阴性的概率是多少?这与测试的有关(具体地说,它是补数1- β)ββ

现在,测试的功效以及假阴性率通常取决于您要寻找的效果的大小。大效果比小效果更容易检测。因此,对于实验而言,没有单一的,因此,对于零假设的证据有多强的问题,也没有明确的答案。换句话说,总有一些效果大小足够小,以至于实验无法排除。β

从这里开始,有两种方法可以进行。有时,您知道自己并不关心小于某个阈值的效果大小。在这种情况下,您可能应该重新构造实验,以使无效假设为效应高于该阈值,然后测试该效应低于阈值的替代假设。或者,您可以使用结果为效果的可信范围设置界限。您的结论是,效果的大小以一定的间隔处于一定的间隔中。如果您经常遇到这种情况,那么您可能需要了解更多有关贝叶斯方法的一小步。

对于涉及缺勤测试证据的相关问题,有一个很好的答案,您可能会发现它很有用。


9
让我们考虑一个假设检验,与ˉ X = 3和非显著p值。根据你的推理,这是一些证据μ 2。与另一种假设检验ħ 1μ < 4,用ˉ X = 3和非显著p值,将随后提供一些证据μ 4。这个证据显然是矛盾的。H1个μ>2X¯=3μ2H1个μ<4X¯=3μ4
Macond

4
我不确定我是否听从您的说法。据我所知,您描述的是两个实验,每个实验都为两个相互矛盾的假设之一提供了证据(可能非常薄弱)。为什么这令人惊讶?
没人

8
另一个示例:公共。如果你不能拒绝它意思是你有证据证明真实行的所有其他值中,真正的平均值恰好为0 ..?这个答案是误导!H0:μ=0
蒂姆

3
我喜欢你的帐户 证据 -在量化数据对一种模型对另一种模型的支持时,似乎很快导致了贝叶斯因素。是否给予支持或反对的证据μ 2?好吧,这取决于您先前对μ的密度:如果您认为μ小于2或远大于3的某处,则数据为它提供了证据。如果您认为μ同样有可能在-10和10之间,则数据提供了证明。但是在经常性分析中,您的信念程度不是由数字代表的,那么什么证据概念适用呢?x¯=3μ2μμμ
Scortchi-恢复莫妮卡

6
这让我想起了黎曼假设。我们查看并在实数部分为1/2的线外寻找非平凡的零,但找不到任何零。尽管我们没有证明黎曼假设不成立,但大多数数学家都认为它是真实的,并且在黎曼假设成立的前提下,有很多结果是正确的:)因此,在这种情况下,我们已经解释了缺少证据作为缺席证据
蚂蚁

29

NHST依赖于p值,该值告诉我们:假设原假设成立,那么观察到我们的数据(或更极端的数据)的概率是多少?

我们假设零假设是正确的-NHST认为零假设是100%正确的。小p值告诉我们,如果原假设为真,则我们的数据(或更极端的数据)不太可能。

但是,较大的p值告诉我们什么?它告诉我们,给定零假设,我们的数据(或更极端的数据)是可能的。

一般来说,P(A | B)≠P(B | A)。

假设您想采用较大的p值作为原假设的证据。您将依靠以下逻辑:

  • 如果null为true,则可能有较高的p值。更新:否。请参阅下面的评论。
  • 发现较高的p值。
  • 因此,null为true。

这采用更一般的形式:

  • 如果B为真,则A为可能。
  • 发生。
  • 因此,B为真。

但是,这是错误的,可以通过一个示例看出:

  • 如果外面下雨,则可能是地面潮湿。
  • 地面是湿的。
  • 因此,外面下雨了。

地面很可能是湿的,因为下雨了。或可能是由于洒水装置,有人清洁排水沟,供水总管破裂等引起的。更多极端的例子可以在上面的链接中找到。

这是一个很难理解的概念。如果我们要为空值提供证据,则需要贝叶斯推断。对我而言,这种逻辑最容易理解的解释是Rouder等人。(2016)。在纸张是否有免费的午餐的推理?发表在Topic in Cognitive Science,第8第520-547页。


3
我不喜欢您的所有示例都得出“ X为真”的结论。拥有某件事的证据与以100%的确定性结论是不一样的。如果我出门在外并且地面潮湿,那就是“下雨了”的证据。这些证据使下雨的可能性更大。
Atte Juvonen

这还算公平。那劳德等。我在答案结尾处链接的论文没有给出确定结论的示例。
马克·怀特

6
@AtteJuvonen是的,我们有一些下雨的证据,但是我们不知道会下雨的可能性,因此您可以得出的唯一结论是“可能下雨了,或者可能是其他东西使地面变湿了”。因此,您没有确凿的证据。仅基于贝叶斯统计,您可以提出相反的论点。
蒂姆

3
我不同意您的结论“如果我们要为无效提供证据,则需要贝叶斯推断”;您引用的这项研究来自Wagenmakers,他是贝叶斯统计数据的非常坚决的核心支持者,因此很明显,他们对此进行了争论。但是实际上,例如,可以通过进行等价的TOST(两个单面测试)来轻松地在频繁主义者范式中获得“无效”的证据。(抄送@AtteJuvonen)。
变形虫说莫妮卡(Monica)恢复职权

10
“如果null为true,则可能有较高的p值。” -这是不正确的。如果零假设为真,则pU[0,1],所以高值不大于零假设下具有低的人更有可能。您只能说空值下的p值比其他假设下的p值高的可能性更大-但是这些假设要么成立,要么不成立,因此这些假设不是我们进行操作的概率空间。除非我们以贝叶斯范式工作!不幸的是,这就是你的论据破裂的地方。pp
S. Kolassa-恢复莫妮卡

14

要了解假设的问题,请参见以下示例:

想象一下在动物园中看不到居民的围墙。您想通过将香蕉放入笼子并检查第二天是否消失来检验猴子居住的假设。重复N次以提高统计意义。

现在您可以提出一个零假设:鉴于围栏中有猴子,很可能它们会找到并吃掉香蕉,因此,如果每天不触摸香蕉,那么里面就不可能有猴子。

但是现在您看到香蕉(几乎)每天都消失了。这是否告诉您猴子在里面?

当然不是,因为还有其他动物也喜欢香蕉,或者也许某些细心的动物园管理员每天晚上都会摘掉香蕉。

那么,这个逻辑犯了什么错误呢?关键是,如果里面没有猴子,您对香蕉消失的可能性一无所知。为了证实零假设,如果零假设是错误的,消失香蕉的概率必须很小,但这不是必须的。实际上,如果原假设是错误的,则该事件可能是同等可能的(甚至更有可能)。

在不知道这种可能性的情况下,您完全无法说出原假设的有效性。如果动物园管理员每天晚上都移走所有香蕉,那么即使您乍看之下似乎已经证实了原假设,该实验也完全没有价值。


这应该是公认的答案。
艾米丽·

2
@amoeba在这种情况下,null hyp是猴子在笼子里。Alt的说法是笼子里没有猴子。我收集的样本是每天早晨观察到的“香蕉没了”和“香蕉还在那里”。对猴子及其发现香蕉的能力进行一些假设,我可以计算出在笼子里看到猴子的实际结果的概率p。如果香蕉仍然经常出现,我会拒绝零乱的炒作。如果香蕉总是不见了,那么就适合零炒,但不能证明猴子在笼子里。
Thern

1
@amoeba我不确定是否可以将猴子示例直接转换为您的t检验方案。据我所知,零假设检验通常意味着Mark White在回答中也写了什么:“鉴于零假设是真实的,我们观察我们的数据(或更多极端数据)的概率是多少?”。您的t检验方案就是这种情况的一个具体案例,但是我目前不知道如何将该方案推广。从我的直觉出发,我想说您的情况和猴子的例子是两种无法直接相互映射的假设检验方法。
Thern

1
如果是@Nebr,那么我对您的猴子示例的含义再次感到非常困惑。T检验可能是最常见的假设检验。我在评论中提到它只是因为它是测试的典型示例。如果您的猴子示例不适用于您所说的-典型的!-情况,那么我对它的含义感到困惑。实际上,如果您说t检验和猴子例子是“两种不同的假设检验方法”,那么您能给出一个遵循猴子例子“方式”的统计检验例子吗?您的猴子例子到底是个什么比喻?
变形虫说莫妮卡(Reonica)Monica's

1
@Nebr我同意这是一个普遍的问题。但是,如果你不能给我一个单一的一个真正的统计测试,将具有相同的属性作为你的猴子例子例子,那么我很抱歉,但我将不得不考虑你的猴子例子几乎不相干该线程。我并不是说猴子的例子必须专门对应于t检验。但是它必须对应于某种东西
变形虫说恢复莫妮卡

14

在他的著名论文《为什么大多数已发表的研究结果是错误的》中约阿尼迪斯使用贝叶斯推理和基本比率谬误来论证大多数发现是错误的阳性。不久,特定研究假设为真的研究后概率取决于(其中包括)该假设的研究前概率(即基本比率)。

作为回应,Moonesinghe等人。(2007年)使用相同的框架表明,复制极大地增加了假设为真的研究后概率。这是有道理的:如果多个研究可以重复某个发现,那么我们将更加确信所假设的假设是正确的。

我使用了Moonesinghe等人的公式。(2007年)创建一个图表,以显示未能复制发现的情况下的研究后概率。假设某个研究假设的预研究概率为50%。此外,我假设所有研究都没有偏见(不切实际!)的功效为80%,为0.05。α研究后概率

该图显示,如果10个研究中至少有5个没有达到显着性,则假设为真的研究后概率几乎为0。对于更多研究,也存在相同的关系。这一发现还具有直觉上的意义:反复找不到效果会增强我们对效果很可能是错误的信念。此推理与@RPL接受的答案一致。

作为第二种情况,我们假设研究仅具有50%的功效(其他所有条件均相等)。研究后概率_pow50

现在,我们的研究后概率降低得更慢,因为每项研究都只有很低的能力才能找到效果(如果确实存在)。


请注意,如果测试未通过原假设,您将获得所有有关原假设的证据。但是OP的假设是,这些检验证实了原假设(“如果我们进行了一项大型研究,但我们没有发现针对原假设的统计学上显着的证据,那不是原假设的证据吗?”)。这对应于图表的最左侧部分,因此对应于这种情况的可能性仍然为50%(或者通常是研究前的可能性),因此您一无所获。
Thern

@Nebr我不明白。如果我们进行了一项功能强大的大型研究(例如95%的能力),但我们找不到针对原假设的证据(即统计假设检验在5%的水平上不显着),那么我们的研究后概率将是在上述框架中为0.05(预研究概率为50%)。
COOLSerdash '17

1
@Nebr您的最后评论没有任何意义:如果结果不重要,则可能不会是“假阳性”。
变形虫说莫妮卡(Reonica Monica)

1
@Nebr- If you have a negative, you found evidence against the null什么?“负”一词的含义恰恰相反。显着的p值称为“正”结果;不重要的是“否定的”。
变形虫说莫妮卡(Monica)恢复职权

1
@Nebr 100%幂并不表示“如果H0为真,我们可以确定我们将始终看到H1”。这意味着如果H1为真,我们将始终看到H1。我不会尝试进一步阅读您的评论,因为每个句子都令人困惑。
变形虫说莫妮卡(Monica)恢复职权

12

我看到的最好的解释是来自接受过数学训练的人。

零假设假设意义检验基本上是一个矛盾的证明:假设,是否有H 1的证据H0H1?如果有证据,则拒绝H 0并接受H 1。但是,如果没有关于H 1的证据,那么可以说H 0是真实的,因为您假设H 0首先是真实的。H1H0H1H1H0H0


4
也许你应该看看这个线程:stats.stackexchange.com/questions/163957/...

10

如果您不喜欢假设检验的这种结果,但又不准备完全跳到贝叶斯方法,那么置信区间如何?

假设你抛硬币次,见20913头,导致你说,对于正面的概率在95%的置信区间为[ 0.492 0.502 ]4207820913[0.492,0.502]

您没有说过您已经看到事实证明它确实是,但证据表明人们对它可能接近1有一定的信心 1212


2
关于置信区间的贝叶斯是什么?
kjetil b halvorsen

3
@kjetilbhalvorsen:置信区间不是贝叶斯(可信区间),但是置信区间比简单的假设拒绝/不拒绝将提供更多有关证据的信息
Henry

9

最好说,不拒绝原假设本身并不是证明原假设的证据。一旦我们考虑了数据的全部可能性,即更明确地考虑了数据量,那么收集的数据就可以为落入零假设的参数提供支持。

但是,我们还应该仔细考虑我们的假设。特别地,未能拒绝点零假设不是很好的证据,证明点零假设是正确的。实际上,它积累了证据,表明参数的真实值与所讨论的点相距不远。点零假设在某种程度上是人为构造,大多数时候您并不真正相信它们将是真实的。

讨论支持原假设的非拒绝,如果您可以有意义地反转原假设和替代假设,并且在这样做时会拒绝新的原假设,则变得更加合理。当您尝试使用标准点零假设进行此操作时,您会立即看到您将永远无法拒绝其补码,因为这样您的倒零假设就包含了任意接近所考虑点的值。

另一方面,如果您说要检验原假设,备择ħ H0:|μ|δHA:|μ|>δμμδ+δ1α[δ,+δ]


4
+1。该恕我直言应该是公认的答案。我不明白为什么投票这么少。
变形虫说莫妮卡(Reonica Monica)

1
@amoeba,因为它发布晚了,但我同意并且已经+1了。
蒂姆

6

而是取决于您如何使用语言。在Pearson和Neyman决策理论下,这不是空值的证据,但是您必须表现得好像空值是真实的。

困难来自收费方式。贝叶斯方法是归纳推理的一种形式,因此是不完全推理的一种形式。空假设方法是惯用语的概率形式,因此是演绎推理的一部分,因此是推理的完整形式。

收费方式具有以下形式:“如果A为真,则B为真,而B为真;因此A为真”。在这种形式下,如果null为true,则数据将以特定的方式出现,它们不会以这种方式出现,因此(在某种程度上可以肯定)null不为true(或者至少是“伪造的”) 。”

问题是您要“如果A则B和B”。据此,您想推断A,但这是无效的。“如果是A则为B”则不会排除“如果不是A则B”也是有效语句。考虑一下语句“如果它是熊,那么它会游泳。它是鱼(而不是熊)”。声明没有提及非熊的游泳能力。

概率和统计是修辞学的一个分支,而不是数学的一个分支。它是数学的重度使用者,但不是数学的一部分。它的存在有多种原因,例如说服力,决策力或推论力。它把修辞学扩展到对证据进行有纪律的讨论。



5

我将举一个例子来说明这一点。

让我们认为我们是从总体中抽样的,目的是检验其均值。我们得到均值的样本ˉ X。如果我们得到一个非显著p值,我们也将获得非显著的p值,如果我们已经为任何其他零假设测试^ h 0μ = μ ,使得μ 之间μ 0ˉμx¯H0:μ=μiμiμ0x¯μ

H1:μ=MH0:μ=μ0μμ0μ<μ0μ>μ0


“现在我们有多少μ的证据呢?” -对于更接近样本均值的值,我们有更有力的证据;对于远离样本均值的值,我们有较弱的证据。强弱取决于样本大小和方差。这种解释有什么问题吗?
Atte Juvonen

是的,这是一种误解。P值不是无效假设为真的概率,也不是支持无效假设的证据强度。同样,您可以进行区间估计,样本均值位于区间的中间,但这并不意味着总体均值接近区间中间的可能性更高。多米尼克·科莫斯(Dominic Comtois)对您的问题的评论中有关于这种误解的良好解释的参考。
Macond

“这并不意味着总体均值接近区间中间的可能性更高。” -这是不正确的。我读了这篇论文,但找不到任何可以证实这一点的东西。
Atte Juvonen

μμP(A|B)P(B|A)

4

x¯0tH0:x¯=μμ=0.5p>0.05H0μ=0.5tpμ=0.5μ=0.5

两种假设

pH0pH0 H1μμμ

L(μ|X)=f(X|μ)

μ^μ^μ^f(μ|X)f(X|μ)f(μ|X)μ^。这导致贝叶斯定理

f(μ|X)=f(X|μ)f(μ)f(X|μ)f(μ)dμ

μμ^μ

H1H0H0等等。如果您要求她提供一些数字,她会把它们给您,但是这些数字是可比的。问题在于,假设检验/ oracle在一个框架中运行,在该框架中,她只能针对询问数据是否与某个假设一致的问题给出结论性答案,而不能反过来,因为您没有考虑其他假设。


2

让我们来看一个简单的例子。

我的零假设是我的数据服从正态分布。另一个假设是我的数据分布不正常。

我从[0,1]上的均匀分布中提取了两个随机样本。我仅用两个样本就不能做太多事情,因此我无法拒绝我的零假设。

这是否意味着我可以得出我的数据服从正态分布的结论?不,这是统一分配!!

问题是我在原假设中做出了正态性假设。因此,我不能断定我的假设是正确的,因为我不能拒绝它。


3
我认为有2个样本的研究不算是“研究”。一旦我们绘制了合理数量的数据点,该示例就不起作用了。如果我们绘制1000个数据点,并且它们看起来像是均匀分布,则我们有证据反对我们的原假设。如果我们绘制1000个数据点,并且它们看起来像正态分布,那么我们就有零假设的证据。
Atte Juvonen

1
@AtteJuvonen我的回答不是试图定义一项研究应该是什么。我只是尝试举一个简单的例子来说明该问题缺乏统计能力。我们都知道2个样本不好。
SmallChess

4
对。我只是说您的示例说明了从两个样本中得出结论的问题。它没有说明为零假设得出证据的问题。
Atte Juvonen


0

不,这不是证据,除非您有证据证明是证据。我不是想变得可爱,而是直白。假设您为null,则只有看到此类数据的可能性。这就是您从p值获得的所有信息(如果那样的话,因为p值基于假设本身)。

您能否提出一项研究,表明对于“未能”支持原假设的研究,大多数原假设都成立了?如果您能找到THAT研究,那么您未能证明原假设的失败至少反映出原假设为真的非常普遍的可能性。我敢打赌你没有那个书房。由于您没有证据表明基于p值的零假设为真,因此您只需要空手而归。

首先假设您的null为true即可获取该p值,因此p值无法告诉您有关null的任何信息,只能告诉您数据。考虑一下。这是一个单向推断-周期。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.