心理学杂志禁止使用p值和置信区间;停止使用它们确实明智吗?


73

2015年2月25日,《基本与应用社会心理学》杂志 发表社论,禁止所有未来论文发表和置信区间。p

他们具体说(格式和重点是我的):

  • [...]在发表之前,作者将必须删除NHSTP [无效假设重要性检验程序]的所有痕迹(,,,有关“重大”差异的陈述或缺乏它们的陈述) , 等等)。ptF

  • 类似于NHSTP如何无法提供原假设的概率(需要为原假设提供强有力的条件来拒绝它),置信区间并不能为推断所关注的总体参数可能在规定范围内提供强有力的条件。间隔。因此,BASP也禁止置信区间。

  • [...]关于贝叶斯程序,我们保留根据具体情况做出判断的权利,因此,BASP也不要求也不禁止贝叶斯程序。

  • [...]是否需要任何推论统计程序?- 否,但是,BASP将需要强大的描述性统计数据,包括效应量。

让我们在这里不讨论问题和滥用。浏览p值标记可以找到很多有关CV的精彩讨论。对的批判常常与建议一起报告感兴趣参数的置信区间有关。例如,在这个非常有争议的答案中, @ gung建议以周围的置信区间来报告效果大小。但是该杂志也禁止置信区间。pp

与采用,置信区间和显着/无关紧要的二分法的“传统”方法相比,这种呈现数据和实验结果的方法的优缺点是什么?对该禁令的反应似乎主要是消极的。那有什么缺点呢?美国统计协会甚至对该禁令发表了简短的令人沮丧的评论,称“该政策可能有其自身的负面影响”。这些负面后果可能是什么?p

还是正如@whuber建议的那样,这种方法是否应该被普遍提倡为定量研究的范例?如果没有,为什么不呢?

PS。请注意,我的问题与禁令本身无关;这是关于建议的方法。我也不是在问频率论者和贝叶斯论者。《社论》对贝叶斯方法也相当否定。因此本质上是关于使用统计信息与根本不使用统计信息。


其他讨论:redditGelman


14
在线性回归模型中,p值和置信区间之间存在一对一的映射关系,因此,我不认为禁止使用p值但保持置信区间很有意义。但是,禁止同时使用p值和置信区间会导致结果描述出现空白。
理查德·哈迪

7
一切都可能被滥用,因此在这种情况下禁止使用某些东西是很奇怪的。我不是p值的拥护者,但这似乎是解决问题的一种很幼稚的方法。鼓励使用适当的东西是一回事,但禁止使用某种东西听起来似乎并不是解决问题的适当方法……
蒂姆

12
好想法。使用统计信息只是掩盖了该领域的非科学性质。
阿克萨卡(Aksakal)

4
这似乎是对滥用p值的挫败感的完全反应。禁止滥用p值,而不是一般而言,我会更高兴。
TrynnaDoStat

8
在列表中的第4项建议他们并不需要点估计,这将是推论,但效果大小报道仅仅是描述性统计。(不过,社论中的几行内容是:“我们鼓励使用比许多心理学研究中常见的更大的样本量,因为随着样本量的增加,描述性统计数据变得越来越稳定,并且抽样误差也不再是问题。”我期待2016年社论呼吁进行研究,以正式化这种稳定性的概念并定量考虑抽样误差的影响。)
Scortchi

Answers:


23

OP链接到的当前2015年社论的第一句话如下:

2014年基础与应用社会心理学(BASP)编辑 *强调*原假设重要性检验程序(NHSTP)无效...

(我的重点)

换句话说,对于编辑来说,“零假设重要性检验”是无效的,这是一个已经被证实的科学事实,2014年社论只是强调了这一点,而当前的2015年社论只是实现了这一事实。

NHSTP的滥用(甚至是恶意使用)确实得到了充分的讨论和记录。而且在人类历史上,“事物被禁止”并不是闻所未闻的,因为已经发现,说完一切之后,它们被滥用的程度远远超过了有效利用的程度(但我们不应该对它进行统计检验吗?)。减少平均(推理统计数据)损失而不是收益的方法可能是“第二好的”解决方案,因此,我们预测(推理统计数据)将来也将有害。

但上面的第一句的措辞背后透露的热情,让这个看起来-exactly,作为一个狂热的做法,而不是冷静决定削减趋于窃取,而不是报价的手。如果阅读以上引用(DOI:10.1080 / 01973533.2014.865505)中提到的一年前的社论,就会发现这只是新编辑对《华尔街日报》政策的重新调整的一部分。

向下滚动社论,他们写道

...相反,我们认为p <.05 bar太容易通过,有时会成为低质量研究的借口。

因此,似乎他们的结论与他们的学科有关,是虚假假设被“经常”拒绝,因此所谓的发现可能具有虚假的统计意义。这是相同的参数作为第一句中的“无效”的格言。

因此,为了回答这个问题,很明显,对于期刊编辑来说,他们的决定不仅明智,而且实施起来已经很晚了:他们似乎认为他们削减了统计数据的哪些部分变得有害,从而保持了统计数据的准确性。有益的部分-他们似乎并不认为这里需要 “等效” 代替任何东西。

在认识论上,这是一个实例,社会科学的学者们通过使用定量方法使学科在方法和结果上变得更加客观的尝试而部分退缩了,因为他们得出的结论(如何?)最后,这种尝试造成了“弊大于弊”。我要说的是,这是一件非常重要的事情,原则上可能会发生,并且这需要花费大量的时间来证明它“超出合理的怀疑范围”,并且确实有助于您的纪律。但是,只有一两篇社论和论文很有可能(推论统计)引发内战。

2015年社论的最后一句话为:

我们希望并预期,通过将作者从NHSTP思维的结构中解放出来,从而禁止NHSTP将具有提高稿件质量的作用,从而消除了创造性思维的重要障碍。NHSTP主导了几十年的心理学。我们希望通过制定第一个NHSTP禁令来证明心理学不需要NHSTP的拐杖,而其他期刊也是如此。


5
是的...在此站点上写嘲讽或讽刺的答复时,请务必小心:它们可能(完全)被误解了!
ub

4
@ naught101 ...那不是很外交。请注意,NHSTP受到谴责的方式使心理学家们避免了自己在这几十年来一直使用它的情况。如果按照您提出的方式编写,那将更像是对作为科学家的同事的直接攻击。到现在为止,该文本实质上意味着,不幸的是,充满良心的心理学家被“某人”误导了使用这种方法,从而在事件中滥用了他的“科学权威的力量”……也许是由科学驱动的邪恶统计学家帝国主义?
Alecos Papadopoulos

4
一个坏工人责怪他的工具。
naught101

3
@BrianDHall我建议在NHSTP周围的问题(包括此站点)上查找更多权威资源,而不是特定作者在该问题上的著作。这件事是困难而微妙的-从您的评论中已经可以先讨论“接受”和“断言”周围的语义...
Alecos Papadopoulos 2015年

6
@ naught101:如果您注意到工人无法正确操作电锯,则可能不会怪罪工具。但是您仍然可以将其从工人手中拿走,以防止进一步受到伤害;-)
nikie 2015年

19

我认为禁止假设检验是一个好主意,除了少数几个“存在”假设之外,例如,检验零假设,即没有超感官知觉,所有人都需要证明存在ESP的证据是非随机性。但是我认为该杂志没有指出心理学研究不力的主要驱动力是使用值的阈值。在心理学和其他大多数领域中已经证明,大量博弈继续达到。这包括假设替换,观察值删除和子集数据。应该首先禁止阈值。P < 0.05PP<0.05

禁止置信区间也是过分的,但这并不是出于其他人陈述的理由。置信区间仅在误解为贝叶斯可信区间(适用于适当的非信息先验)时才有用。但是它们仍然有用。他们确切的惯常论者解释只会导致混乱,这实际上意味着我们需要“摆脱道奇”并去贝叶斯学或可能性学校。但是,通过误解良好的旧置信度限制可以获得有用的结果。

可惜的是,该期刊的编辑们误解了贝叶斯统计数据,却不知道存在纯似然推断。贝叶斯后验分布可以使用略有怀疑的先验轻松地提供他们想要的内容。


+1,谢谢。让我澄清一下置信区间。置信区间与标准错误有关,因此建议也不要使用这些标准。让我们考虑最简单的情况:在一组对象/对象中测量某些值;假设平均值为3。据我了解,该期刊建议将其简单报告为3。但是您是否也不想看到标准错误,例如?当然,这意味着95%的置信区间为,这也意味着,所以都与之相关。我不确定您建议如何举报。3 ± 0.5 3 ± 1 p < 0.05n3±0.53±1p<0.05
变形虫2015年

4
我认为标准误差过分简化(因为它们采用对称分布),但是对精度的有用度量(例如均方误差)。您可以考虑基于均方根误差的精度区间,而无需考虑概率范围。因此,我看不出任何讨论都暗示着不重视标准错误。我并不是在建议我们停止使用CL。但是CL的困难主要来自尝试概率解释。
Frank Harrell

嗯 有趣。在我看来,从标准误差到CI(常数因素!)只有很小的一步,以至于区别对待它们将是很奇怪的。但这也许是一个语义上的观点。我想您的意思是人们对标准错误和配置项的看法有所不同,并且倾向于对配置项更加困惑。我不知道该特定期刊政策对标准错误有何评论(社论未明确提及)。
变形虫

2
在对称情况下,标准误是置信区间的基础。但是在许多情况下,正确的置信区间是不对称的,因此完全不能基于标准误差。引导程序和反向转换的某些变体是这种类型的两种方法。在这里尤其要注意轮廓似然置信区间。
弗兰克·哈雷尔

@Frank Harrell-关于“纯似然推断”,我同意在不使用阈值修饰点的情况下,强调数据似然性的摘要似乎是编辑人员正在寻求的答案。AWF Edwards的书“ Likelihood”(1972年)直接谈到了编辑的关注点:“我们可以将这些论点(例如,重要性检验)的考虑推迟到以后的章节,然后根据费舍尔的“可能性”概念立即进行对过程的描述。 ,这对所有可能在重要性测试中达到水平的对象均不开放。”
约翰·马克

13

我将这种方法视为试图解决社会心理学无法复制许多先前发表的“重要发现”的尝试。

它的缺点是:

  1. 它没有解决导致虚假效应的许多因素。例如,

    • A)人们仍然可以窥视他们的数据,并且当影响大小达到足以引起人们兴趣的程度时,就可以停止运行研究。

    • B)在效果的回顾性评估中,大型效果尺寸似乎仍然具有较大的效果。

    • C)人们仍然会出于有趣而巨大的影响而钓鱼(在实验中测试一堆假设,然后报告弹出的假设)或

    • D)假装一直以来都预期会出现意想不到的怪异效果。

    难道不应该首先解决这些问题吗?

  2. 随着该领域的发展,它将使对过去发现的评论变得非常糟糕。无法定量评估不同研究的可信度。如果每个期刊都采用这种方法,那么当一堆完全未知的X令人难以置信时,就会有一群社会科学家说X有证据,而科学家们正在争论如何解释已发表的效应,或者争论它是否重要或有价值。在谈论。这不是统计数据的重点吗?提供评估数字的一致方法。我认为,这种新方法如果得到广泛实施,将会造成混乱。

  3. 此更改不会鼓励研究人员提交效果大小小的研究结果,因此它并不能真正解决文件抽屉效果(或者不管效果大小如何,他们都将发布具有大n的发现?)。如果我们发布了经过精心设计的研究的所有结果,那么即使个别研究的结果可信度可能不确定,但是提供统计分析的研究的荟萃分析和评论在识别真相方面会做得更好。


2
@captain_ahab关于第3点,我们必须提到编辑器的前一篇社论(2014年)明确鼓励提交“零效应”研究。
Alecos Papadopoulos

1
除了需要比正常样本更大的样本量外,我似乎无法在社论中找到讨论任何出版标准的评论(我不清楚他们如何计划在不进行推断统计的情况下确定可接受的n)。对我而言,这篇社论没有强调他们不在乎效果的大小。在我看来,他们仍然会寻找有趣的效果和有趣的故事,我认为这是社会科学工作中更大的问题(即事后搜索有趣的效果和故事)。
captain_ahab 2015年

2
似乎更好的解决方案是,所有科学家在运行研究之前,必须在公共场所记录研究的假设,基本理性,研究的力量和分析方法。然后仅限于以规定的方式发表该研究。如果发现了意外的有趣效果,他们应该公开登录,然后进行一项新的研究来检查该效果。这种控制误报的方法还可以使科学家展示自己的生产力而无需发表新的影响。
captain_ahab

7

我遇到了一个奇妙的报价,几乎可以证明同一点,但事实并非如此-因为这是教科书中的开篇,主要涉及常客统计学和假设检验。

像作者一样,非统计学家也普遍认为,如果您进行良好的实验,就不需要统计学。他们是正确的。[...]当然,缺点是很难进行良好的实验。大多数人声称自己喜欢的理论被无所作为的观察所证实,因此需要他们能获得的所有帮助,以防止他们自欺欺人。统计部分中处理重要性检验的主要功能是防止人们自欺欺人。从这个角度来看,意义测试的功能是防止人们发表实验,而不是鼓励实验。理想情况下,实际上,重要性测试应该永远不会出现在印刷品上,如果已经在初步阶段用于检测不足的实验,

-David Colquhoun,生物统计学讲座,1971年


1
您的帖子实际上是评论,而不是答案,因此,我不赞成对此发表评论,但我确实要感谢您分享引文。在这段经文中有太多的误解,以至于需要花费大量的精力(更不用说空间)来指出并揭穿它们。总之,与这些主张相反的是“效率”。如果每个人都有无限的时间和预算,我们至少可以渴望进行“良好的实验”。但是,如果资源有限,那么仅进行“最终的……明确的”实验将是十分困难的(而且成本很高)。
ub

2
感谢您的评论,@ whuber; 我同意你的意思。尽管如此,我必须补充一点,我的确很有吸引力,可以说理想的实验数据应该具有说服力,以至于使正式的假设检验变得多余。这不是遥不可及的理想!在我的领域(很多使用p值的领域)中,我发现最好的论文没有它们令人信服:例如,因为它们提出了一系列相互支持的实验序列,这些实验加在一起显然不是统计学上的fl幸。重新评论:评论太久了,我认为作为CW回答还可以。
变形虫

是的,我知道为什么必须将其发布为答案,因此没有投票赞成将其添加为评论(这将切断报价的最后一部分)。我同意,在某些情况下理想并非遥不可及。我也同意记住这是一个很好的理想。但是,作为指导设计实验的方法(总体来说,这是分配资源的准则),这可能是一个可怕的错误。(这无疑是有争议的。)然而,关于“一个好的”实验永远不需要统计学方法的建议是,即使经过粗略的检验也不能成立。
ub

1
也许是一种读物,即表明某种物质刺激某种生理反应的初始显着性检验,在您发布有关各种抑制剂对剂量反应曲线的影响的研究之时已不再相关。
Scortchi
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.