无效假设重要性检验的基本限制是,它不允许研究人员收集有利于无效的证据(来源)
我在多个地方都看到过这种说法,但我找不到理由。如果我们进行了大量的研究,我们没有发现统计学显著的证据对原假设,这不就是证据的零假设?
无效假设重要性检验的基本限制是,它不允许研究人员收集有利于无效的证据(来源)
我在多个地方都看到过这种说法,但我找不到理由。如果我们进行了大量的研究,我们没有发现统计学显著的证据对原假设,这不就是证据的零假设?
Answers:
未能拒绝无效假设的证据是无效假设是正确的,但它可能不是特别好的证据,并且当然也不能证明无效假设。
让我们走一小段弯路。考虑一下旧的陈词滥调:
缺乏证据并不意味着缺乏证据。
尽管它很流行,但这种说法是胡说八道。如果您找不到某物,那绝对是没有物的证据。证据的好坏取决于您的搜索有多彻底。粗略的搜索不能提供充分的证据。详尽的搜索提供了有力的证据。
现在,回到假设检验。当您运行假设检验时,您正在寻找证据证明原假设不成立。如果你没有找到它,那么肯定的证据表明,零假设是正确的,但有多强的证据?要知道这一点,您必须知道使您拒绝原假设的证据有可能逃脱搜索的可能性。也就是说,您的测试中出现假阴性的概率是多少?这与测试的有关(具体地说,它是补数1- β)。
现在,测试的功效以及假阴性率通常取决于您要寻找的效果的大小。大效果比小效果更容易检测。因此,对于实验而言,没有单一的,因此,对于零假设的证据有多强的问题,也没有明确的答案。换句话说,总有一些效果大小足够小,以至于实验无法排除。
从这里开始,有两种方法可以进行。有时,您知道自己并不关心小于某个阈值的效果大小。在这种情况下,您可能应该重新构造实验,以使无效假设为效应高于该阈值,然后测试该效应低于阈值的替代假设。或者,您可以使用结果为效果的可信范围设置界限。您的结论是,效果的大小以一定的间隔处于一定的间隔中。如果您经常遇到这种情况,那么您可能需要了解更多有关贝叶斯方法的一小步。
对于涉及缺勤测试证据的相关问题,有一个很好的答案,您可能会发现它很有用。
NHST依赖于p值,该值告诉我们:假设原假设成立,那么观察到我们的数据(或更极端的数据)的概率是多少?
我们假设零假设是正确的-NHST认为零假设是100%正确的。小p值告诉我们,如果原假设为真,则我们的数据(或更极端的数据)不太可能。
但是,较大的p值告诉我们什么?它告诉我们,给定零假设,我们的数据(或更极端的数据)是可能的。
一般来说,P(A | B)≠P(B | A)。
假设您想采用较大的p值作为原假设的证据。您将依靠以下逻辑:
这采用更一般的形式:
但是,这是错误的,可以通过一个示例看出:
地面很可能是湿的,因为下雨了。或可能是由于洒水装置,有人清洁排水沟,供水总管破裂等引起的。更多极端的例子可以在上面的链接中找到。
这是一个很难理解的概念。如果我们要为空值提供证据,则需要贝叶斯推断。对我而言,这种逻辑最容易理解的解释是Rouder等人。(2016)。在纸张是否有免费的午餐的推理?发表在Topic in Cognitive Science,第8页,第520-547页。
要了解假设的问题,请参见以下示例:
想象一下在动物园中看不到居民的围墙。您想通过将香蕉放入笼子并检查第二天是否消失来检验猴子居住的假设。重复N次以提高统计意义。
现在您可以提出一个零假设:鉴于围栏中有猴子,很可能它们会找到并吃掉香蕉,因此,如果每天不触摸香蕉,那么里面就不可能有猴子。
但是现在您看到香蕉(几乎)每天都消失了。这是否告诉您猴子在里面?
当然不是,因为还有其他动物也喜欢香蕉,或者也许某些细心的动物园管理员每天晚上都会摘掉香蕉。
那么,这个逻辑犯了什么错误呢?关键是,如果里面没有猴子,您对香蕉消失的可能性一无所知。为了证实零假设,如果零假设是错误的,消失香蕉的概率必须很小,但这不是必须的。实际上,如果原假设是错误的,则该事件可能是同等可能的(甚至更有可能)。
在不知道这种可能性的情况下,您完全无法说出原假设的有效性。如果动物园管理员每天晚上都移走所有香蕉,那么即使您乍看之下似乎已经证实了原假设,该实验也完全没有价值。
在他的著名论文《为什么大多数已发表的研究结果是错误的》中约阿尼迪斯使用贝叶斯推理和基本比率谬误来论证大多数发现是错误的阳性。不久,特定研究假设为真的研究后概率取决于(其中包括)该假设的研究前概率(即基本比率)。
作为回应,Moonesinghe等人。(2007年)使用相同的框架表明,复制极大地增加了假设为真的研究后概率。这是有道理的:如果多个研究可以重复某个发现,那么我们将更加确信所假设的假设是正确的。
我使用了Moonesinghe等人的公式。(2007年)创建一个图表,以显示未能复制发现的情况下的研究后概率。假设某个研究假设的预研究概率为50%。此外,我假设所有研究都没有偏见(不切实际!)的功效为80%,为0.05。
该图显示,如果10个研究中至少有5个没有达到显着性,则假设为真的研究后概率几乎为0。对于更多研究,也存在相同的关系。这一发现还具有直觉上的意义:反复找不到效果会增强我们对效果很可能是错误的信念。此推理与@RPL接受的答案一致。
作为第二种情况,我们假设研究仅具有50%的功效(其他所有条件均相等)。
现在,我们的研究后概率降低得更慢,因为每项研究都只有很低的能力才能找到效果(如果确实存在)。
If you have a negative, you found evidence against the null
什么?“负”一词的含义恰恰相反。显着的p值称为“正”结果;不重要的是“否定的”。
我看到的最好的解释是来自接受过数学训练的人。
零假设假设意义检验基本上是一个矛盾的证明:假设,是否有H 1的证据?如果有证据,则拒绝H 0并接受H 1。但是,如果没有关于H 1的证据,那么可以说H 0是真实的,因为您假设H 0首先是真实的。
如果您不喜欢假设检验的这种结果,但又不准备完全跳到贝叶斯方法,那么置信区间如何?
假设你抛硬币次,见20913头,导致你说,对于正面的概率在95%的置信区间为[ 0.492 ,0.502 ]。
您没有说过您已经看到事实证明它确实是,但证据表明人们对它可能接近1有一定的信心 。
最好说,不拒绝原假设本身并不是证明原假设的证据。一旦我们考虑了数据的全部可能性,即更明确地考虑了数据量,那么收集的数据就可以为落入零假设的参数提供支持。
但是,我们还应该仔细考虑我们的假设。特别地,未能拒绝点零假设不是很好的证据,证明点零假设是正确的。实际上,它积累了证据,表明参数的真实值与所讨论的点相距不远。点零假设在某种程度上是人为构造,大多数时候您并不真正相信它们将是真实的。
讨论支持原假设的非拒绝,如果您可以有意义地反转原假设和替代假设,并且在这样做时会拒绝新的原假设,则变得更加合理。当您尝试使用标准点零假设进行此操作时,您会立即看到您将永远无法拒绝其补码,因为这样您的倒零假设就包含了任意接近所考虑点的值。
另一方面,如果您说要检验原假设,备择ħ 甲:
而是取决于您如何使用语言。在Pearson和Neyman决策理论下,这不是空值的证据,但是您必须表现得好像空值是真实的。
困难来自收费方式。贝叶斯方法是归纳推理的一种形式,因此是不完全推理的一种形式。空假设方法是惯用语的概率形式,因此是演绎推理的一部分,因此是推理的完整形式。
收费方式具有以下形式:“如果A为真,则B为真,而B为真;因此A为真”。在这种形式下,如果null为true,则数据将以特定的方式出现,它们不会以这种方式出现,因此(在某种程度上可以肯定)null不为true(或者至少是“伪造的”) 。”
问题是您要“如果A则B和B”。据此,您想推断A,但这是无效的。“如果是A则为B”则不会排除“如果不是A则B”也是有效语句。考虑一下语句“如果它是熊,那么它会游泳。它是鱼(而不是熊)”。声明没有提及非熊的游泳能力。
概率和统计是修辞学的一个分支,而不是数学的一个分支。它是数学的重度使用者,但不是数学的一部分。它的存在有多种原因,例如说服力,决策力或推论力。它把修辞学扩展到对证据进行有纪律的讨论。
我将举一个例子来说明这一点。
让我们认为我们是从总体中抽样的,目的是检验其均值。我们得到均值的样本ˉ X。如果我们得到一个非显著p值,我们也将获得非显著的p值,如果我们已经为任何其他零假设测试^ h 0:μ = μ 我,使得μ 我之间μ 0和ˉ
让我们来看一个简单的例子。
我的零假设是我的数据服从正态分布。另一个假设是我的数据分布不正常。
我从[0,1]上的均匀分布中提取了两个随机样本。我仅用两个样本就不能做太多事情,因此我无法拒绝我的零假设。
这是否意味着我可以得出我的数据服从正态分布的结论?不,这是统一分配!!
问题是我在原假设中做出了正态性假设。因此,我不能断定我的假设是正确的,因为我不能拒绝它。
不,这不是证据,除非您有证据证明是证据。我不是想变得可爱,而是直白。假设您为null,则只有看到此类数据的可能性。这就是您从p值获得的所有信息(如果那样的话,因为p值基于假设本身)。
您能否提出一项研究,表明对于“未能”支持原假设的研究,大多数原假设都成立了?如果您能找到THAT研究,那么您未能证明原假设的失败至少反映出原假设为真的非常普遍的可能性。我敢打赌你没有那个书房。由于您没有证据表明基于p值的零假设为真,因此您只需要空手而归。
首先假设您的null为true即可获取该p值,因此p值无法告诉您有关null的任何信息,只能告诉您数据。考虑一下。这是一个单向推断-周期。