统计数据发表在学术论文上


44

我阅读了许多进化论/生态学学术论文,有时的特定目的是了解如何在教科书之外“在现实世界中”使用统计数据。我通常将论文中的统计信息作为福音,并使用这些论文来帮助我进行统计学学习。毕竟,如果一篇论文花费了数年的时间并且经过了严格的同行评审,那么统计数字肯定会非常可靠吗?但是在过去的几天中,我质疑了我的假设,并想知道在学术论文中发表统计分析的频率是多少?特别是,可以预期的是,诸如生态学和进化论等领域的人们花费更少的时间来学习统计学,而花费更多的时间来学习其领域。

人们在学术论文中多久发现一次可疑统计数据?



18
审稿人通常是对统计资料了解不多的人,而不是撰写论文的人,因此发布不良统计资料通常很容易。
Behacad 2014年

9
获取发表的论文是第一个实现其接受步骤由科学界,不是最后一次。大多数发表的论文在某些方面都会存在重大缺陷,使用统计也不例外。
Dikran Marsupial 2014年

3
您认为论文“需要花费数年才能撰写”的假设远远超出了预期。收集数据可能会花费很长时间,但是分析数据和编写数据通常需要数周而不是数年。
David Richerby 2014年

2
如今,众所周知,许多心理学和医学论文中的统计数据至少是可疑的,甚至是很普遍的错误,甚至不是那么频繁。p值和NHST的穷人用法是这些问题的一个突出示例,请参阅本说明
石英2014年

Answers:


38

毕竟,如果一篇论文花费了数年的时间并且经过了严格的同行评审,那么统计数字肯定会非常可靠吗?

我阅读尝试在各个领域(政治科学,经济学,心理学,医学,生物学,金融,精算科学,会计,光学,天文学以及许多其他许多领域)应用统计学的论文的经验是,统计分析可能涵盖从出色,出色到严重的废话的任何地方。我在我提到的每个领域都看到了很好的分析,而几乎所有领域的分析都做得很差。

有些日记通常相当不错,有些日记更像是用眼罩玩飞镖-您可能会使它们中的大多数离目标都不太远,但是在墙壁,地板和天花板上都会有一些。也许是猫。

我不打算命名任何罪魁祸首,但是我会说我已经看到了错误使用统计数据建立的学术职业(即,十多年来,一纸又一纸地重复同样的错误和误解)。

所以我的建议是让读者当心 ; 不要相信编辑和同行评审知道他们在做什么。随着时间的流逝,您可能会很好地了解通常可以依靠哪些作者做的事情不会太令人震惊,应该特别谨慎地对待哪些作者。您可能会觉得有些期刊通常对其统计数据有很高的标准。

但是,即使是通常优秀的作者也可能会犯错误,或者裁判和编辑可能无法发现他们通常会发现的错误;典型的好期刊可以发表咆哮声。

[有时,您甚至会看到非常差的论文赢得奖项或奖项……这对评审获奖者的素质也没有多大作用。]

我不想猜测我可能会看到的“不良”统计数据所占的比例(在各种情况下,以及从定义问题,研究设计,数据收集,数据管理等各个阶段直至...分析和结论),但还不足以让我感到舒服。

我可以指出一些例子,但是我认为这不是这样做的合适论坛。(这将是很好,如果有对于一个很好的论坛,实际上,不过话又说回来,它可能会变得高度“政治化”相当快,很快就无法达到其目的。)

α显然适用于解决完全相同的问题。这让我感到震惊,因为这通常是个坏主意。总体而言,几十篇论文的标准是相当不错的,但是在过去,我在那里看到过一篇绝对糟糕的论文。

[也许我可以间接地举一个例子。这个问题问一个人做的事情很可疑。这与我见过的最糟糕的事情相去甚远。]

另一方面,我也看到(甚至更频繁地)人们被迫跳过各种不必要的篮球以使他们的分析被接受的情况。不接受完全合理的事情,因为有一种“正确”的方法可以根据审阅者,编辑或主管的身份进行操作,或者仅是在某个特定领域未公开的文化中进行操作。


2
鉴于开放存取期刊的数量不断增加,“ 警告告诫 ”?
Scortchi-恢复莫妮卡

1
@scortchi我决定只用英文写就完全避免这个问题。这是一个进步。
Glen_b 2014年

10
在不指定具体罪魁祸首的情况下,我认为faculty.vassar.edu/abbaird/about/publications/pdfs / ...值得一提。为了证明他们在该领域中滥用统计数据的观点,他们使用了广泛使用的统计协议来分析死鲑鱼的fMRI扫描结果。他们发现大脑活动具有“统计学意义”。statisticsdonewrong.com也使阅读有趣。
James_pic 2014年

1
@James_pic,必须加入对statisticsdonewrong链接的评论+1;基本利率谬误的讨论特别有趣。
丹·布莱恩特

1
@KennyPeanuts:两者都不是-只是指出,当今许多讲师甚至都不是间接的免税者
Scortchi-恢复莫妮卡

16

我尊重@Glen_b在此处回答问题的正确方法的立场(当然也不想降低它的吸引力),但我无法忍受指出一个特别有趣的示例,该示例离我家很近。冒着使事情政治化和达到这个问题的目的的风险,我建议Wagenmakers,Wetzels,Boorsboom和Van Der Maas (2011)。我在Cognitive Sciences beta SE(认知科学如何解释接受者的远距离意图和大脑功能?)的相关文章中引用了此内容,该文章考虑了“飞镖击中猫”的另一个例子。Wagenmakers及其同事的文章直接评论了一个真正的“咆哮”:它发表在JPSP(心理学最大的期刊之一)上) 几年前。他们还更普遍地主张贝叶斯分析,并且:

为了使怀疑的听众相信有争议的主张,需要进行严格的确认性研究,并使用保守而非自由的统计检验来分析结果。

我可能不需要告诉你,这并不是在向合唱团宣讲的时候。FWIW也有反驳(因为似乎总是在贝叶斯主义者和常客之间;Bem,Utts和Johnson),2011年,但我感到它并没有完全遏制辩论

作为一个科学共同体,心理学最近受到了一定程度的复制,部分原因是这种和其他引人注目的方法学缺陷。这里的其他评论指向与社会神经科学中曾经被称为伏都教相关的案例相似的案例(对于政治上不正确的BTW ,这是怎么回事?论文已改名;Vul,Harris,Winkielman和Pashler,2009年)。这也引起了它的反驳,您可以查看有关更多有争议的做法的更多辩论。

要获得(伪造)统计学家的(更个性化的)花费更多的娱乐性,请参阅我们目前在简历上第8个最受支持的问题,另外一个(公认的)政治上不正确的标题是“ 什么是常见的统计罪过? ” @MikeLawrence将他的灵感归因于他对心理学和统计学的平行研究。这是我个人的最爱之一,它的答案对于避免自己遇到无数陷阱非常有用。


就个人而言,我在过去的五个月中已经花了很多时间,主要是因为要获得关于某些数据分析问题的可靠统计数据非常困难。坦白说,同行评议通常根本没有那么严格,特别是在对年轻科学中具有复杂问题和大量认知并发症的研究进行统计审查时。因此,我感到有必要对自己的工作中的方法进行完善负责。

介绍我的论文研究时,我了解了统计审查的个人责任有多重要。我母校的两位杰出心理学家插话说,我犯了我对关联的解释中最基本的罪过之一。我以为自己在它之上,并且已经对它进行过几次本科课程的讲授,但是我仍然去了那里,并被它召唤了(早起,感谢天堂)。我去那里是因为我正在审查和复制的研究去了!因此,我最终在论文中添加了几节内容 这就要求其他研究人员从准实验纵向研究(有时甚至从横截面相关性)中假设因果关系,并且过早地忽略了其他解释。

我的论文被我的委员会未经修改地接受,其中包括另一位杰出的心理计量学家和SPSP的即将主席(即将出版JPSP),但坦率地说,我并不是在吹牛。从那以后,尽管通过了外部评审过程并获得了很好的评审员,但我还是设法用自己的方法戳了几个兔子洞。我现在陷入了统计的深渊,试图用更适合于Likert评级的预测模型的方法(如SEM,IRT和非参数分析)插入统计数据(请参阅降维后的回归测试))。我自愿选择花几年时间写论文,而我可以原样发表论文……我认为在认真进行之前,我还要进行模拟研究。

但是,我强调这是可选的–在发布或灭亡的文化中,甚至在职业生涯早期往往强调数量胜于质量的情况下,甚至可能是过分热情和昂贵的奢侈品。在我的领域中,将连续数据的参数模型错误地应用于违反假设的序数数据分布以及对统计意义的误解和表述都是很常见的(请参见适应p值的根深蒂固的观点)。在短期内,我完全可以摆脱它的困扰……而且做得更好甚至也不难。我想我在R程序方面有近几年的惊人进步,对此我要多谢!希望时代在变。


参考文献
· Bem,DJ,Utts,J.,&Johnson,WO(2011)。心理学家必须改变他们分析数据的方式吗?人格与社会心理学杂志,101(4),716–719。取自http://deanradin.com/evidence/Bem2011.pdf
· Vul,E.,Harris,C.,Winkielman,P.和Pashler,H.(2009)。在功能性磁共振成像研究中,情感,性格和社交认知的相关性令人惊讶地高。心理科学观点,4(3),274–290。取自http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf
·Wagenmakers,EJ,Wetzels,R.,Borsboom,D.,&Van der Maas,H.(2011年)。为什么心理学家必须改变他们分析数据的方式:以psi为例。人格与社会心理学杂志,100,426–432。取自http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf



1
@Scortchi:感谢您的参考,变形虫:感谢您的上下文。我看不到Witzum等人的说法。麦凯等人。嘲笑他们的摘要,但他们确实指出了许多其他严重的缺陷。好东西。“尽管真实的数据可能混淆了科学家的期望,即使他们的假设是正确的,但那些实验系统地偏向他们的期望的人却很少失望(Rosenthal,1976)。” 那是根据准实验对我进行因果推论的家伙之一……一位真正的伟大心理学家。Bem也有一些信誉。
Nick Stauner 2014年

2
+1个好帖子。“ 对统计审查的个人责任有多重要 ”-我必须鼓掌。归根结底,这是责任所在,对于已经尝试在其领域应用统计学的研究领域的人来说,这可能是沉重的负担。
Glen_b 2014年

1
@NickStauner:McKay等。在他们的摘要中说Witzum等。声称“创世记的希伯来语文本编码的事件直到文本被写入数千年后才发生”。也许有点夸张,因为在《摩西五经》的写作到他们名单中最后一位拉比的出生日期之间最多只有两千年。(据我所知,您也可以将Witztum等人的论文作为《创世纪》最近作者的证据,尽管据我所知没有人做过。)
Scortchi-恢复莫妮卡

1
是的,我想我听不懂Witzum等。足以意识到他们正在提出这一主张。一次我想我应该感谢作者的钝写...在面值上会发现有趣一点,因为最突出的说法是模式不是偶然的,不是模式应该的在他们看来。如果它没有像McKay等人那样超出范围,它本可以邀请您做出更多有趣的解释。至少在McKay等人之前说过。以方法论为由将其击落,没有什么值得解释的。
Nick Stauner 2014年

5

我记得在大学里,有几名最后一届社会科学专业的学生在不同场合(其中一个获得第一)的问题是如何计算他们的项目的平均值,而该项目的数据很少。(因此,他们在使用软件方面没有问题,只是在如何使用计算器进行数学运算的概念上就可以了。)

当我问他们想要什么类型的平均值时,它们只是给我空白的表情。

然而,所有人都认为有必要在报告中添加一些统计数据,因为这已经完成了–我希望他们都阅读了101篇具有统计数据的论文,而没有考虑这些统计数据的含义。

显然,在过去三年中教过他们的研究人员并不关心统计数据的正确性,以至于无法将任何理解传播给学生。

(我当时是计算机科学专业的学生。我将其发布为答案,因为可能需要一段时间才能发表评论。)


海事组织(IMO),学生是另外一堆猴子。我不会因为没有更多证据而缺乏理解而立即责备老师...但是,如果您说的是老师应该责备的话,我也不会感到惊讶。
Nick Stauner 2014年

@NickStauner,我责怪老师对统计数据不够重视;如果他们关心的话,每张试卷上都会有至少一个问题需要对统计数据有一定的了解,即“如何与统计数字撒谎”。我不在乎社会科学专业的学生是否知道如何计算,但他们应该知道如何避免误导。
伊恩·林格罗斯

同意他们应该知道,但不能保证他们会正确解决该问题!
Nick Stauner 2014年

@NickStauner,是的,但是您只会得到什么衡量标准,因此除非您将它放在考试中,否则您不会让学生了解有关统计的任何信息。
伊恩·林格罗斯

再说一次,我倾向于给老师较少的学分。很多学生(好吧,也许不是“很多”,但有些)会为自己的学习而足够学习,还有一些已经知道很多材料的人上课。不过,如果我对您的评论的解释过于绝对,请原谅;我同意强迫学生学习的动机常常是一种必不可少的弊端,并且与死记硬背,重复的学习/讲课相比,测试是一种更好的学习方法。
Nick Stauner 2014年

0

作为一个残缺不全的清单,我发现统计学最常在1)物理学论文中被更正,其次是2)统计论文,而在3)医学论文中最可悲。这样做的原因很简单,并且与每个领域对原型模型施加的要求的完整性有关。

在物理学论文中,方程式和应用统计数据必须注意平衡单位,并且最经常发生因果关系,并根据物理标准进行测试。

在统计中,1)单位和因果关系有时被忽略,假设有时被启发,物理测试经常被忽略,但是相等性(或不平等性),即逻辑通常沿归纳路径保存,后者不能校正。不自然的假设。

在医学中,通常忽略单位,等式和假设通常是启发式的,通常未经测试且经常是虚假的。

自然,与经济学相比,诸如统计力学之类的领域更有可能具有可检验的假设,而这并不能反映那些领域的准作者的才能。它与实际可测试的多少以及每个字段在历史上已进行的多少测试有关。


-7

任何证明零零假设的论文都使用了毫无价值的统计数据(我所见过的绝大多数)。此过程无法提供效果大小尚未提供的信息。此外,它并没有告诉我们有关重大结果是否实际上是由于研究人员理论上的原因所致。这就需要对数据进行周密的调查,以找到混杂的证据。大多数情况下(如果存在的话),最有力的证据甚至被当作“异常值”丢弃。

我对进化论/生态学不是很熟悉,但是在心理学和医学研究方面,我将统计理解水平称为“严重混淆”和“阻碍科学进步的障碍”。人们应该反驳他们理论所预测的东西,而不是相反(零差异/效应)。

关于这个主题已经有成千上万的论文。查找NHST混合动力争议。

编辑:我的意思是零无效假设显着性检验的科学价值最高为零。这个人打在了头上:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-production-substantive-cumulative-knowledge/

另外:Paul Meehl。1967年。《心理学与物理学的理论测试:方法论悖论》

编辑3:

如果有人支持秸秆NHST的有用性而无需思考“拒绝升温速率相同的假设,但不要以此暗示升温速率不同的假设”是合理的。声明,我欢迎您的评论。

编辑4:

费舍尔以下引述是什么意思?是否表明他认为“如果模型/理论A与数据不兼容,我们可以说A是假的,但是关于A 是否不是真”的问题呢?

“可以肯定的是,对科学工作者进行统计检验的兴趣完全取决于他们在拒绝假设时所使用的假设,这些假设因此被认为与观察结果不符。”

...

因此,如果人们普遍认为重要性检验(如果被正确使用)能够拒绝或无效假设(只要这些假设与数据相抵触),那么将大大增加考虑重要性检验的清晰度。; 但是他们永远都无法将它们确定为正确的

卡尔·皮尔森(Karl Pearson)和RA费舍尔(RA Fisher)进行统计测试:1935年自然界的一次交流

他是否假设人们只会试图使合理的假设无效,而不是让稻草人无效?还是我错了?


7
“此过程无法提供效果大小尚未提供的信息。” 这是不正确的,p值提供了一些有关在原假设下该效应大小将有多异常的信息,因此它提供了效应大小校准的元素。别误会我的意思,我认为贝叶斯因子更有用,但是说p值是一文不值的统计数据是夸张的。
Dikran Marsupial 2014年

3
“我发现我(和其他人)注意到的所有模式都值得一提”,这正是在博客中讨论气候时出现的问题,人眼非常擅长查看数据中的模式,结果证明这些模式仅仅是噪音,而且它在辩论中的信噪比一点也不好,在将其发布到博客之前,没有任何想法克服的障碍!这是统计数字通常非常差的科学领域。
Dikran Marsupial 2014年

2
Livid,我举了一个具体的例子,说明与“稻草人” H0一起进行适当的NHST将有助于科学问题的讨论。这就提供了一个清楚的反例,可以证明您的观点是错误的-尽管NHST本身存在缺陷,但它们在科学和统计学中确实发挥了有用的作用。现在,如果您可以证明我的反例是正确的,则可能可以解决该问题。
Dikran Marsupial 2014年

2
@ Livid,NHST发挥科学和统计意义,而不是社会期望的功能(尽管不是最佳状态),并且没有设置任何障碍,该障碍通常是由其对H1的反对所定义的,并且不涉及“确认结果”错误”,因为拒绝H0并不意味着H1为真。所以不,这是不准确的。
Dikran Marsupial 2014年

3
您错过了重点。如果您的门槛很低,那么如果您能成功地进行谈判,谁也不会感到惊讶。但是,如果您的门槛较低,但仍然无法克服,那就可以告诉您一些信息。正如我反复说过的,拒绝null并不意味着H1为真,因此拒绝H0并不意味着肯定存在暂停,它并不能告诉您为什么会有暂停。但是,如果您不能克服拒绝H0的障碍,则表明可能没有足够的证据将H1认定为事实(在这种情况下就是这种情况)。
Dikran有袋动物2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.