两尾测试……我只是不服气。重点是什么?


59

以下摘录摘自条目:一尾测试和二尾测试之间有何区别?,位于UCLA的统计信息帮助网站上。

...考虑在另一个方向上失去效果的后果。想象您已经开发了一种新药,您认为这是对现有药物的改进。您希望最大程度地发现改进的能力,因此选择单尾测试。这样,您将无法测试新药是否比现有药物有效的可能性。

在学习了假设测试的绝对基础并了解了关于一个尾巴测试与两个尾巴测试的那一部分之后...我了解了一个尾巴测试的基本数学和增加的检测能力,等等​​。。。但是我只是无法缠住我的头一件事...有什么意义?我真的不明白为什么当样本结果只能是一个或另一个,或者两者都不是时,为什么要在两个极端之间分配alpha值。

以上面引用的文本为例。您怎么可能在相反方向上“无法测试”结果?您有样本均值。你有人口平均数。简单的算术告诉您哪个更高。在相反的方向上有哪些测试或失败测试?如果您清楚地看到样本均值偏离了另一个方向,是什么使您从头开始却有了相反的假设呢?

同一页上的另一句话:

在运行无法拒绝原假设的二尾检验之后选择一尾检验是不合适的,无论二尾检验与显着性有多“接近”。

我认为这也适用于切换单尾测试的极性。但是,与您只选择了正确的单尾测试一开始相比,这种“医生化”结果的有效性如何呢?

显然,我在这里错过了大部分图片。这一切似乎太武断了。从某种意义上说,这是什么意思,即“具有统计意义的意义”-95%,99%,99.9%...首先是任意的。


18
对我来说,这似乎是一个非常好的问题,+ 1。
gung-恢复莫妮卡

5
尽管绝对清楚地应该在收集数据之前设计实验和测试,但是鉴于新药通常采用单侧测试进行测试而不会引起强烈抗议,因此我发现它们在药物方面的例子颇具吸引力。
P-Gn

3
@ user1735003具有讽刺意味的文章认为考虑到许多调节药物试验的情绪/行为正在受到观察者偏见的日益严格的审查。利他林上一个有趣的Cochrane。任何试验人员都将“安慰剂的优越性”称为“伤害”,因此我至少不会觉得这是不可想象的。但是在这些试验中,如果研究因伤害而停止,则信号来自不良事件。
AdamO

10
“您拥有样本均值。您拥有总体均值...如果您清楚地看到样本均值与另一个方向背道而驰,那么从相反的假设重新开始?。不,假设检验的全部要点是您没有总体平均值,而您正在使用样本平均值来检验有关总体平均值的假设(无效假设)。因此,没有“清楚地看到样本均值有偏差”,因为这正是您要测试的内容,而不是给定的。
StAtS

1
麻烦的是,您常常不知道极性,因此您必须运行两尾测试。想象一下,当您不知道哪一个插头是正电源时,将电压表插入直流电源
阿克萨卡尔州

Answers:


46

将数据视为冰山的一角-您在水面上看到的只是冰山的一角,但实际上,您有兴趣了解有关整个冰山的知识。

统计人员,数据科学家和其他从事数据工作的人员应小心谨慎,不要让他们所看到的水线以上的东西受到影响,并使他们对水线以下的隐藏物的评估产生偏差。出于这个原因,在假设检验的情况下,他们倾向于看到冰山一角之前根据自己的期望(或缺乏),如果他们能完整地观察冰山会发生什么,就制定零假设和替代假设。。

查看数据来提出您的假设是一种糟糕的做法,应该避免使用-就像把车放在马背上一样。回想一下,数据来自于从目标目标种群/宇宙中选择的单个样本(希望使用随机选择机制)。样本具有其自身的特质,可能反映或可能不反映潜在的总体。为什么要让您的假设反映一小部分人口而不是整个人口?

另一种思考的方式是,每次从目标人群中选择一个样本(使用随机选择机制)时,该样本都会产生不同的数据。如果您使用数据(您不应该!!!)来指导对原假设和替代假设的说明,则您的假设将遍及整个图谱,基本上由每个样本的特质特征驱动。当然,实际上我们只画一个样本,但是知道如果其他人用相同大小的不同样本进行了相同的研究,那他们将不得不改变自己的假设以反映现实,这是一个非常令人沮丧的想法。他们的样本。

我的一位研究生院教授曾经有个很明智的说法:“我们不在乎样本,只是样本告诉我们有关人口的一些信息”。我们想提出假设,以了解有关目标人群的某些信息,而不是了解我们恰巧从该人群中选择的一个样本。


1
@ subhashc.davar:仅仅因为您没有看到我的回答的相关性,这并不意味着其他人不会。请注意,答案不仅针对提出问题的人,还针对整个社区。如果您对此有强烈的看法,我很乐意删除我的答案。
Isabella Ghement

7
@ subhashc.davar一个示例可能会有所帮助:说您测试小吃是否会影响性能。您进行实验后,发现零食的得分略有增加。大!运行单尾测试,以查看零食>非零食。问题:如果您抽取一个样本,发现零食表现较差,您会怎么做?您会为零食(非零食)做一个单尾测试吗?如果是这样,则表示您犯了一个错误,并让示例特性指导您的测试。
RM

21
我教授的一则轶事:“我们在一个产科病房拜访了一位朋友的初生女儿。有20个孩子和20个孩子中的18个戴着粉红色的帽子。 / 50。这在统计上非常重要。因此,谁想和我一起写这篇论文?没人?为什么?您不能使用产生假设的数据来检验假设。”
AdamO

4
@AdamO我发现您的评论比答案本身更好的解释。我将最后一句话改写为“您不应该使用与生成假设相同的数据来检验您的假设。” 一个相关的含义是,可以根据先前选择的任何测试的结果来更改假设。但是您应该然后使用新数据测试新假设。
肯尼·埃维特

3
@KennyEvitt是的,完全正确。偶然发现很重要,应予以报告,但不应作为预先设定的假设出售。
AdamO '18年

18

我认为,在考虑您的问题时,如果您牢记零假设假设检验(NHST)的目标/卖点会有所帮助;它只是统计推论的一个范例(尽管很受欢迎),其他范例也有自己的优势(例如,请参阅此处有关NHST与贝叶斯推论的讨论)。NHST的最大优势是什么:长期错误控制。如果您遵循NHST的规则(有时可能会非常大),那么从长远来看,您应该对自己做出的推论有多大错觉。

NHST的固定规则之一是,在不进一步更改测试程序的情况下,您只需要看看感兴趣的测试即可。在实践中,研究人员经常忽略(或不知道)该规则(请参见Simmons等,2012),在添加数据波并检查其后进行多次测试。p在其模型中添加/删除变量后的值-等。问题是研究人员对NHST的结果很少保持中立;他们敏锐地意识到,重要的结果比非重要的结果更有可能被发表(由于被误导和合法的原因; Rosenthal,1979)。因此,研究人员经常被激励去添加数据/修改模型/选择离群值,并反复测试直到“发现”显着效果为止(参见John等人,2011,一个很好的介绍)。

上面的做法产生了一个违反直觉的问题,在Dienes(2008)中进行了很好的描述:如果研究人员将不断调整样本/设计/模型直到达到显着性,那么他们所期望的长期错误率的假阳性结果(通常是)和假阴性结果(通常)将分别接近1.0和0.0(即,当假和真时,您将始终拒绝)。β = 0.20 ħ 0α=.05β=.20H0

针对您的特定问题,当研究人员不想针对效果的方向做出特定的预测时,默认使用两尾检验。如果他们的猜测是错误的,并且朝着效果的方向进行了一次单尾测试,那么他们长期的将被夸大。如果他们查看描述性统计数据并基于对趋势的观察进行一次单尾检验,则他们的长期将会被夸大。在实践中,您可能会认为这不是一个大问题,会失去其长期含义,但是如果它们不保留其含义,就会引出一个问题,即为什么使用一种方法来推断优先考虑长期错误控制。α pααp

最后(根据个人喜好),如果您先进行了两尾测试,发现它没有什么意义,然后按照第一个测试所隐含的方向进行了单尾测试,那么我将没有什么问题。如果(且仅当)您在另一个样本中对该效果进行了严格的确认性复制,并在同一篇论文中发表了该复制,则发现该复制有意义。只要您能够在没有相同分析灵活性的情况下将结果复制到新样本中,探索性数据分析(采用错误率提高灵活的分析方法)就可以了。

参考文献

Dienes,Z.(2008年)。将心理学理解为科学:科学和统计推断简介。帕格雷夫·麦克米伦(Palgrave Macmillan)。

John,LK,Loewenstein,G.&Prelec,D.(2012年)。通过讲真话的动机来衡量有问题的研究实践的普遍性。心理科学,23(5),524-532。

Rosenthal,R。(1979)。文件抽屉问题和对空结果的容忍度。心理通报,86(3),638。

西蒙斯(JP),尼尔森(LD)和西蒙索恩(U)(2011)。假阳性心理学:数据收集和分析中未公开的灵活性允许呈现任何有意义的东西。心理科学,22(11),1359-1366。


很好的答案。帮助我整理了最近在研究论文(作为外行)中遇到的一些疑虑,似乎证实了以下观点:只有当您有理由对“负数”充满信心时,单尾p值才能“被信任”。相关”方向为假。
Venryx

10

不幸的是,药物开发的激励性例子不是一个很好的例子,因为这不是我们开发药物所要做的。如果趋势不利于我们,我们将使用其他更严格的规则来停止研究。这是为了患者的安全,也因为该药物不太可能神奇地朝着有意义的利益方向摇摆。

那么为什么要进行两次拖尾测试呢?(在大多数情况下,我们对要建模的可能方向有一些先验概念)

零假设应该承担一些相似之处在被似是而非,通知,并说明理由感信念。在大多数情况下,人们都同意“无趣的结果”是效果为0时的效果,而负面效果或正面效果的效果相同。阐明复合零假设非常困难,例如,我们知道统计量可能等于等于少于一定数量。为了使他们的科学发现有意义,一个人的假说必须非常明确。值得指出的是,进行综合假设检验的方式是,在原假设下的统计假设所观察到的数据范围内的值最一致。因此,如果效果如预期的那样朝着积极的方向发展,则无论如何都将null值设为0,因此我们已进行了不必要的讨论。

两尾测试等于进行两个单面测试,并带有多个比较对照!实际上,两尾测试的部分价值在于,从长远来看,它最终会变得更加保守。当我们对效果的方向有很好的把握时,两个尾部测试会产生一半的假阳性率,而对功率的总体影响却很小。

在随机对照试验中评估一种治疗的情况下,如果您试图向我出售一项单面试验,我会阻止您问:“等等,我们为什么会认为这种治疗实际上有害?是否确实有证据来支持这一点吗?甚至还有平衡能力(证明有益效果的能力)吗?” 单方面测试背后的逻辑不一致使整个研究受到质疑。如果真的一无所知,则认为0以外的任何其他值都很有趣,并且两尾测试不仅是一个好主意,而且是必要的。


8

一种解决方法是暂时忘记假设检验,而改为考虑置信区间。单面测试对应于单侧置信区间,而双面测试对应于单侧置信区间。

假设您要估计总体的平均值。自然地,您要采样并计算样本均值。没有理由对面值进行点估计,因此您以一定的间隔表达您的答案,您可以确信该间隔包含真实的均值。您选择哪种间隔?到目前为止,双向间隔是更自然的选择。仅当您根本不在乎查找估计值的上限或下限时(因为您认为已经知道一个方向的有用范围),单边间隔才有意义。您对这种情况真的有多确定?

也许将问题切换到置信区间并不能真正确定问题的根源,但是从方法论上来说,偏爱单尾检验而不是双向置信区间是不一致的。


4

在学习了假设测试的绝对基础并深入了解了一个尾巴测试与两个尾巴测试之后……我了解了一次尾巴测试的基本数学和增强的检测能力,等等​​。。。但是我只是无法缠住我的头一件事...有什么意义?我真的不明白为什么当样本结果只能是一个或另一个,或者两者都不是时,为什么要在两个极端之间分配alpha值。

问题是您不知道人口平均数。我从未遇到我知道真实人口均值的现实情况。

以上面引用的文本为例。您怎么可能在相反方向上“无法测试”结果?您有样本均值。你有人口平均数。简单的算术告诉您哪个更高。在相反的方向上有哪些测试或失败测试?如果您清楚地看到样本均值偏离了另一个方向,那么从头开始却又相反的假设阻止了您吗?

我读了几次您的段落,但仍然不确定您的论点。您想改写吗?如果您的数据没有使您进入所选的关键区域,则无法“测试”。

我认为这也适用于切换单尾测试的极性。但是,与您只选择了正确的单尾测试一开始相比,这种“医生化”结果的有效性如何呢?

引用正确,因为破解p值是不合适的。我们对“野外” p黑客了解多少?有更多详细信息。

显然,我在这里错过了大部分图片。这一切似乎太武断了。从某种意义上说,这是什么意思,即“具有统计意义的意义”-95%,99%,99.9%...首先是任意的。救命?

这是任意的。这就是为什么数据科学家通常会报告p值本身的大小(不仅仅是重要的或无关紧要的)以及影响的大小。


明确地说,我并不是要挑战统计推断的基础。正如我所说,我只是刚刚学习了最基本的知识,却在理解由于不使用正确的测试而可能遗漏任何潜在发现的问题上遇到了麻烦。
FromTheAshes

假设您的好友Joe发明了一种新产品,他声称这种新产品极大地促进了植物的生长。有趣的是,您设计了一个健壮的研究,其中包括对照组和治疗组。您的空虚。替代性的炒作是增长不会改变。是乔的魔术喷雾剂显着促进了生长-因此,进行了一次单尾测试。2周后,您将进行最终观察并分析结果。结果表明,治疗组的平均生长低于对照的5个标准误。由于您选择的测试方式,这个非常重要的发现如何变得不那么明显或有效?
FromTheAshes

2
如果我要求您抛硬币的正面或反面,则您预测结果的可能性为50/50(假设平衡的硬币和诚实的脚蹼)。但是,如果我先抛硬币然后让您看一下然后做出预测,它将不再是50/50。如果您正在进行具有0.01的alpha值的单尾测试,但是在看到结果之后又将测试的方向翻转,因为p <.01在另一个方向上,则发生I型错误的风险就不会超过0.01但更高。注意,观察到的p值和I类错误率不是同一回事。
dbwilson

@FromTheAshes尝试挑战基础是没有错的。统计假设检验并非没有用,但它确实包含大量的逻辑缺陷,对它们进行挑战是绝对合理的!
比卢德(Flounderer)

3

好吧,所有差异都取决于您要回答的问题。如果问题是:“一组价值是否大于另一组?” 您可以使用单尾测试。要回答这个问题:“这些价值观的群体是否不同?” 您使用两尾测试。考虑到一组数据在统计上可能高于另一组,但在统计上却没有不同……这就是统计。


1
如果问题是:“一组价值观是否比另一组更大?” 您可以使用单尾测试。” 更准确地说,如果问题是“这个特定的组是否比其他组大”,则应使用两尾检验。
累计

应该指出的是,这暗示着,如果您问的是“顺便说一句,如果看起来另一个小组实际上更大,那我不在乎”。如果您看到的与预期相反,然后继续进行假设检验的方向,那么您就一直在自欺欺人,应该先做一个两尾检验。
戴森

2

但是,与您只选择了正确的单尾测试一开始相比,这种“医生化”结果的有效性如何呢?

alpha值是假定null为true时您拒绝null的可能性。假设您的零值是样本均值正态分布且均值为零。如果P(样本均值> 1 | H0)= .05,则规则“收集样本,如果样本均值大于1,则拒绝零值”,假设零值是真实的,则概率为5%。拒绝null。规则“收集样本,并且如果样本均值是正值,则在样本均值大于1时拒绝null;如果样本均值是负数,则如果样本均值小于1,则拒绝null”。假设null为真,则拒绝此null的概率为10%。因此,第一个规则的alpha值为5%,第二个规则的alpha值为10%。如果您从两尾测试开始,然后根据数据将其更改为单尾测试,那么您将遵循第二条规则,因此将您的Alpha报告为5%可能是不准确的。alpha值不仅取决于数据是什么,还取决于您在分析数据时遵循的规则。如果您要问为什么要使用具有此属性的指标,而不是仅依赖于数据的指标,那么这个问题就更复杂了。


2

关于第二点

在运行无法拒绝原假设的二尾检验之后选择一尾检验是不合适的,无论二尾检验与显着性有多“接近”。

α

αα100%

P(two-sided rejects or one-sided does, but two sided doesn't)
P(two-sided rejects(one-sided doestwo sided doesn't))
P(two-sided rejects)+P(one-sided doestwo sided doesn't)
α/21α1α/2
P(one-sided doestwo sided doesn't)=α/2
α+α2>α
α/21α1α/21α/2

这是一些数字插图:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

1

p<α=0.05

α0.05α

α=0.05α=0.025

α=0.05


当然,这就是所谓的研究人员自由度。如果您有足够的数据并且可以根据需要自由地对其进行测试,则可以在任何类型的数据中找到意义。这就是为什么您必须在查看数据之前决定要进行的测试。其他所有内容均导致无法复制的测试结果。我建议去youtube,看看安德鲁·盖尔曼斯(Andrew Gelmans)的演讲“关于数据的犯罪”。


1
嗯,零假设不是结果是随机的。这会使临床医生和科学家感到困惑,他们非常认为他们的工作成果可以达到固定的结果。
AdamO

1
α=0.052 5 2.5 0.0525%2.5%

1

乍一看,这些陈述都没有断言双面测试比单面研究“优越”。仅需要将要测试的研究假设与要测试的统计推断联系起来就可以形成逻辑联系。

例如:

...考虑在另一个方向上失去效果的后果。想象您已经开发了一种新药,您认为这是对现有药物的改进。您希望最大化检测改进的能力,因此选择单尾测试。这样,您将无法测试新药是否比现有药物有效的可能性。

首先,这是一项药物研究。因此,在相反的方向上犯错误具有超越统计框架的社会意义。因此,就像许多人所说的那样,健康并不是最好的概括。

在上面的引用中,似乎是要对已经存在的另一种药物进行测试。所以对我来说,这意味着您的药物被认为已经有效。该声明是关于此后两种有效药物的比较。在比较这些分布时,是否为了改善比较结果而忽略了人口的一侧?这不仅是一个有偏见的结论,而且这种比较不再是有道理的合理结论:您是在将苹果与桔子进行比较。

同样,很可能存在点估计,为了进行统计推断,该结论对结论没有影响,但是具有很大的社会意义。这是因为我们的样本代表了人们的生活:这是无法“重现”且无价的。

另外,该陈述暗示研究人员有一个动机:“您希望最大程度地发现改进的能力...”这个概念对于隔离作为不良协议的案例并不重要。

在运行无法拒绝原假设的二尾检验之后选择一尾检验是不合适的,无论二尾检验与显着性有多“接近”。

在此再次暗示研究人员正在“转换”他的测试:从双面转换为双面。这永远是不合适的。测试之前必须有研究目的。通过始终默认使用双面方法的便利性,研究人员通常无法更严格地理解这种现象。

实际上,这是一篇有关此主题的论文,这表明双面测试已被过度使用。

它把缺少双面测试的原因归咎于缺少:

研究假设与其统计假设之间的明确区分和逻辑联系

研究人员的立场和立场是:

可能不知道两种表达方式之间的差异,也可能不知道将研究假设转化为统计假设的逻辑流程。即使在使用双尾检验不适当的情况下,研究和统计假设的方便导向混合也可能是过度使用双尾检验的原因。

在解释统计测试结果时,需要掌握准确的统计信息。不建议以保守的名义出现不精确。从这个意义上讲,作者认为仅报告测试结果,例如“发现在0.05的显着性水平上具有统计学显着性(即p <0.05)。”还不够好。

尽管理论上两尾检验较为保守,但它使定向研究假设与其统计假设之间的联系脱钩,从而可能导致p值倍增。

作者还表明,在相反的方向上找到重大结果的论点仅在发现的范围内有意义,而在
辩解的范围内没有意义。在检验研究假设及其基础理论的情况下,研究人员不应同时处理发现和论证的背景。

https://www.sciencedirect.com/science/article/pii/S0148296312000550


1

通常针对无效假设针对替代假设执行显着性检验。在这种情况下,一尾与两尾有区别。


  • α

    一面或两面测试的I型错误率没有不同。

  • 另一方面,对于权力而言,这很重要

    如果您的替代假设是不对称的,那么您希望将准则集中于仅在此尾部/末端上拒绝原假设。这样,当替代假设为true时,您不太可能不会拒绝(“接受”)原假设。

    如果您的替代假设是对称的(您不在乎在一侧上放置更多或更少的力量),并且在两侧上的偏转/效果也同样可望(或者只是未知/无根据),那么使用双面测试(对于未测试的尾巴,您不会损失50%的功率,并且会在其中产生许多II型错误)。

    II型错误率在单面和双面测试中均不同,并且取决于替代假设。

现在,当我们开始涉及一些预想,即我们预期效果会落在一侧还是两侧时,以及何时希望使用检验(看看是否可以伪造一个原假设)以“确认”或做出更可能的效果。


0

因此,又尝试了一个答案:

我猜是采取一尾还是二尾完全取决于替代假设。

考虑以下t检验中的检验均值示例:

H0:μ=0

Ha:μ0

现在,如果您观察到非常负的样本均值或非常正的样本均值,那么您的假设就不可能成立。

0 0

μ=0μ0

0

μH0:μ=0H0:μ>0

因此,您的解决方案变为:

H0:μ=0

Ha:μ<0

最好的例子是Dickey-Fuller平稳性测试。

希望这可以帮助。(希望包含图表,但通过手机回复)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.