既然我已经拒绝了原假设,那么下一步是什么呢?


23

我一次又一次拒绝未能拒绝原假设。在未能拒绝的情况下,您可以得出结论:没有足够的证据可以拒绝,您可以“继续前进”(例如,收集更多数据,结束实验等)。

但是,当您“拒绝”原假设时,为替代假设提供了一些证据,您就无法真正“证明”您的替代假设确实成立。

因此,一旦您拒绝了原假设,接下来的常见步骤是什么?人们采用什么工具/技术来“进一步分析问题”,以使更多的发现更有说服力?作为统计学家需要进一步分析的合乎逻辑的“下一步”是什么?

例如:

H0μ1个=μ0

(说,我们知道预期的方向)H1个μ1个>μ0

一旦我们在某种程度上拒绝了原假设,我们就有“证据”证明了另一种选择是正确的,但是我们不能得出这个结论。如果我真的想最终得出结论(请原谅,请放好双字游戏),我该怎么办?

在大学本科期间,我从来没有考虑过这个问题,但是现在,我正在做大量的假设检验,我不禁想知道接下来会发生什么:)



3
一般而言,在做出决定后还应该选择做出决定后的行动(否则您如何权衡这两种错误的代价,从而选择合理的?)。至少,您可能会考虑估计效果的大小。空值是不可行的(根据您选择的标准-如果这不足以满足您的要求,那将是什么?),那么应该使用哪些值呢?例如,在你的指示的测试,对于什么样的价值观μ 1 - μ 0是合理可行的,给出的数据?αμ1个-μ0
Glen_b-恢复莫妮卡2014年

Answers:


10

通常,您可以使用更多数据继续对可能要测试的任何参数进行估计。一旦测试达到一定程度的半任意重要程度,停止数据收集是做出错误推断的一种好方法。分析师可能会误解重大结果,因为有迹象表明工作已完成是内曼·皮尔森(Neyman-Pearson)框架的许多意想不到的后果之一,根据这种观点,人们将p值解释为无保留地拒绝null或未能拒绝null的原因,具体取决于他们落在临界阈值的哪一边。

如果不考虑贝叶斯主义对频繁主义者范式的替代(希望有人会这样做),则置信区间将继续提供更多信息,远远超出可以拒绝基本零假设的程度。假设收集更多的数据只会使您的基本意义测试达到更大的意义(并且不会揭示您先前对意义的发现是假阳性),那么您可能会发现这是无用的,因为您会以两种方式拒绝null。但是,在这种情况下,您对相关参数的置信区间将继续缩小,从而提高了可精确描述您所关注人群的置信度。


这是的一个非常简单的示例–测试模拟变量的零假设:μ=0

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

t.test(rnorm(99))α=.05rnorm

set.seed(8);t.test(rnorm(99,1))μ=[.691.12]

μ=.8mu=.8

set.seed(8);t.test(rnorm(999,1),mu=.8)μ=0μ=.8μ=[.901.02]μ=.89

H0μ=.9set.seed(9);t.test(rnorm(999,1),mu=.9)

逐步测试更严格的零假设,或者更好地测试,仅关注缩小您的置信区间,这只是进行方法之一。当然,大多数拒绝零假设的研究为基于替代假设的其他研究奠定了基础。例如,如果我正在测试一个相关性大于零的替代假设,那么我可以在后续研究中测试调解人或主持人……而在我从事此研究的同时,我一定要确保我可以复制原始结果。


要考虑的另一种方法是测试。如果您想得出一个参数在某个可能值范围内的结论,而不仅仅是与单个值不同,则可以根据传统的替代假设指定希望该参数位于的值范围,并对其进行测试针对一组不同的零假设,这些零假设一起代表参数在该范围之外的可能性。这最后一种可能性可能与您编写时所想到的最相似:

我们有“一些证据”证明替代方案是正确的,但是我们不能得出这个结论。如果我真的想得出结论,那...

set.seed(8)rnorm(99)rnorm(99,1)-1μ=.8-.2μ.2

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tostμ=[-.27.09]rnorm(999)μ=[-.09.01]

我仍然认为置信区间比等效测试结果更有趣。它代表了数据表明总体均值比替代假设更具体的含义,并且表明我可以有把握地相信,它位于比替代假设中指定的更小的间隔内。为了演示,我将再次滥用我不切实际的仿真能力,并使用set.seed(7);tost(rnorm(999),epsilon=.09345092):“肯定”,p = .002。


启发人!您能否展示一下有关等价测试的最后一部分的简单而肮脏的示例?从高层次看它如何适用真的很有帮助。
博士2014年

@PhD:完成。我认为,这比“高级别”更“快速又肮脏”。我是自己进行等效测试的新手,您会看到,我并不完全接受它。
尼克·斯汤纳

10

首先请注意,@ Nick Stauner对可选停止提出了一些非常重要的论点。如果您在进样时反复测试数据,则在一次重要测试后立即停止,就可以保证您获得了出色的结果。但是,保证的结果实际上毫无价值。

在下文中,我将尽最大努力阐述演绎主义,怀疑主义,证伪主义的立场。它当然不是唯一的一个,但我认为是相当主流的,或者至少是具有一定传统的一个。

据我了解,费舍尔最初将重要性测试引入数据探索的第一步-确定哪些因素可能值得进一步研究。除非您所检验的零假设实际上是您偏爱的理论所依赖的关键假设(不太可能),以某种方式,您的最初检验本质上是探索性的。在探索之后的可能步骤中,我看到了

  • 进一步探索
  • 参数估计
  • 预测与确认

进一步的探索包括后续测试,在这些测试中,您尝试推断是否有任何有关中度的信息或与您的效果有关的变量。例如,参与者的年龄可能起作用?请注意,此类分析必须清楚地标记为探索性的,否则它们基本上等于说谎。如果您偶然发现某些东西,首先需要确认。通常,无论是在思想还是在写作上,都应该始终清楚地了解何时进行探索性工作和何时进行确认性工作。

接下来,一旦您确定对某个参数的值正好为零没有信心-一旦确定,您现在将考虑被测因素具有一定的影响-下一步可行的下一步是进一步估算精确值参数的。例如,到目前为止,您仅排除了一个值0(假设是双向测试)。但是,您的数据也对许多其他可能的值产生了疑问。

αα

休ume著名地辩称,我们永远不能归纳证明正确的陈述。通常,非平凡的假设总是容易被伪造而不是被支持。原则上容易被伪造(通过不琐碎,做出精确的预测),而到目前为止却未被伪造,实际上是理论的最高美德之一。

因此,配置项不会使您证明特定的价值。但是,它缩小了候选集的范围。也许只有活着的候选人才能帮助您在两种都不符合H0的理论之间做出决定。例如,可能排除了0,但理论1的预测值约为5,理论2的预测值约为15。如果您的95%CI包括5,但排除了15,则您现在对理论2也失去了信心游戏中还有1个。请注意,这实际上与您的初始测试是否有意义无关-即使0在未拒绝的值之中,许多值也会被拒绝。也许对于其他一些研究人员而言,其中一些价值是令人感兴趣的。

这样,您对当前的效果有了一些了解之后,理想情况下,您可以对后续的验证性实验做出更精确的预测,该实验旨在测试您可以从当前分析中得出的更精确的假设。诚然,拒绝您最初的统计无效假设不是对您最初的研究假设进行严格的检验,不是吗?比您喜欢的解释更多的解释不取决于H0。另外,由于您从没有真正接受过H0的危险,因此您无法伪造您所钟爱的理论!所以你需要更严格的测试。可以说,这实际上是您想要的;您不想证明自己的理论,而是想将其置于日益严峻的考验之下,试图伪造它。经受如此真实(但公正)的反驳努力是理论可以提供的最好的选择。但是对于严格的测试,您需要比“ 0否”更精确的理论。

您现在已经了解了有关验证性研究的多个重要事实;例如,您对所涉及的方差和影响量有一个概念,从而可以通过功效分析来估计后续研究所需的样本量。您还可以预测一个特定值,并在其附近假设一个实际等效 / ROPE 区域。您将无法证明该特定值是真实值;但是,如果后续实验中的CI完全落在您的ROPE之内,那么您的理论依据将得到证实(可能会给竞争带来麻烦)。


6

不能证明一个积极的科学命题而只能反对一个科学命题的想法是波普尔证伪主义的原则。我确实同意您不能证明影响完全等于任何给定的点值(请参阅我在这里的答案:为什么统计学家说不重要的结果意味着“您不能拒绝零”而不是接受零假设?)。但是那又怎样呢?

人(或至少)抱怨假设检验。这是因为p值通常被误解,并且假设检验用于逻辑上无法完成的任务。例如,假设检验不应用于生成假设或选择变量。此外,根据观察数据,基本上所有“零”个零假设都必须是错误的,因此进行检验几乎没有意义。但是,科学家经常确实希望通过当前理论提出先验假设,而在真实的实验中,nil null可能为真,因此进行测试是完全合理的。通常,研究人员确实有一定的理由怀疑null可能为假,因此结合有力的实验得出的重要结果是有效的信息。

您始终可以形成置信区间,以更清晰地了解估计的精度,并继续收集更多数据以提高其精度。但是,从经济角度来讲,您将获得越来越少的回报。在某些时候,您根本不相信原假设可以合理地说明正在研究的现象。在这种情况下,您为什么要打扰?

如果您所在领域的其他人还没有被说服,但是会获得更多(相同的)数据,那么您可以继续,但这似乎是一种罕见的情况。在我看来,持怀疑态度的人似乎更有其他实质性的担忧,即那条询问线是否足以充分说明潜在问题。因此,您需要确定这些问题的性质,如果您认为它们值得开展工作,请寻找可以更充分地解决当前问题的不同数据。例如,您可能尝试使用不同的度量,不同的设置和/或不同的控制条件来复制发现。

另一方面,每个人(或多或少)可能会对您的数据和结论(祝贺!)感到满意。在这种愉快的情况下,您可以遵循两个方向来继续您的研究计划:

  1. 一个还原的方法是寻求理解产生已建立的作用机制。用统计学的话来说,您经常会寻求调解者和/或完善因果关系的模式,这些因果关系关系到您已经显示出相关的变量

  2. 您也可以通过寻求将发现整合成更大的模式来朝另一个方向发展。这是一种系统思考。GH Hardy 曾经将理论的优雅定义为可以解释的现象范围,以及它所引发的认知转变的容易程度和程度。当然,您可能不会很幸运地发现已经建立的现象如此之,但是它仍然可能是比其本身更大的事物的一部分。建立之间的联系C 这样就可以看到 一种 统一不同的现象对于发现过程同样重要,对于发现过程同样重要。 一种 本身。

tl; dr:如果您有足够的证据证明null为假,请找出您可以尝试回答并继续发展的其他理论上有问题的问题。


0

我想补充一句,您的问题使我想起了我年轻的自己:我拼命地想证明我的假设,因为我没有怎么写“假设是错误的”,这有助于改善我正在写的论文。 。但是后来我意识到“该死的我绝对可爱的假设无法得到证明”也具有科学价值:1.考虑一下为什么您的假设不成立。数据有问题,还是假设本身有问题?2.对较旧研究的后果是什么?

举个例子:我用一个比以前的数据集还大的新数据集写了关于民族信仰的硕士论文。我测试了几个有争议的假设,例如“石油助长种族冲突”或“山区居民更有可能遇到冲突”。我无法证明石油助长了种族冲突-但是我写了两页关于可用石油数据集的质量如何影响分析(数据集本身是一个时间序列,而油井数据集则不是)。“山峰正在引发冲突”这一论点也是失败的,但是却是富有成果的:先前的研究使用国家级数据(例如,一个国家的平均身高)分析了这一论点,

注意:反驳假设不是失败,而是与被证明的假设一样好的结果。


您提到的假设不是(传统的)零假设。我认为您可能错过了OP的重点。
尼克·斯汤纳

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.