如何惹恼统计裁判员?


102

我最近问了一个有关围绕论文统计的一般原则的问题。我现在想问的是,在审阅论文时特别令您烦恼的是什么,即真正惹恼统计裁判员的最佳方法是什么!

请为每个答案举一个例子。


它是否扩展到为响应初始审核而收到的理由(要求进行次要和/或主要修订)?
chl

@chl:是的,为什么不呢。
csgillespie 2010年

Answers:


69

我个人特别恼火的是那些清楚地使用用户编写的统计软件软件包,但却没有正确引用或根本没有引用它们的人,因而未能对作者表示赞赏。当作者在学术界并且他们的工作依赖被引用的发表论文时这样做特别重要。(也许我应该补充一点,在我的领域中,许多罪魁祸首不是统计学家。)


2
为我+1。这让我感到沮丧,尤其是当他们引用错误的内容时,我提供了有关如何引用软件包的详细信息
Gavin Simpson

3
问题:引用包装时,您是引用小插图(如果有)还是包装本身?
布兰登·贝特尔森

7
@Brandon:如果软件包作者足够在意您的指导,那么他们会以引文(“ some_package”)的形式给出答案
Ben Bolker 2010年

2
除了制作具有里程碑意义的论文(并非那么容易)之外,获得引用的最简单方法是在论文中至少留下一个错误。然后,您可以发布更正,并引用原始论文。在更正中留下错误,您可以发布参考原始更正和原始论文的更正(我看到像是一年级研究生的东西)。引用次数随着O(N ^ 2)过程的增长而增加,其中N是更正次数。
Mark L. Stone

67

天哪,我想到了很多事情...

  • 逐步回归

  • 将连续数据分组

  • 提供p值,但不衡量效果大小

  • 使用均值和标准差描述数据,而无需指出数据是否大致对称和单峰

  • 没有清晰标题的数字(这些误差线是平均值的标准误差,还是组内的标准偏差,或者是什么?)


5
我对逐步回归项目符号有点好奇。是什么使逐步回归如此糟糕?是数据挖掘和多重比较问题吗?
Christopher Aden

17
问题在于,逐步的过程完全使基于p值的“正常”推论统计数据的所有假设和前提都变得无效,然后,这些假设和前提条件将存在严重偏差(向下朝“更重要”的方向)。因此,基本上,答案是“是”,但需要警告的是,原则上可以纠正所有这些多重比较(但我从未见过)。我坚信,这是我看到太多无法复制的心理学研究的最重要的唯一原因,而这反过来又导致了资源的巨大浪费。
Stephan Kolassa 2010年

10
@Stephan:我同意,逐步是一个坏主意。尽管虽然他们可能还没有选择心理方法,但是有多种选择程序可以通过调整估计值和标准误差来调整与过拟合相关的偏差。通常不认为这是多重比较的问题。它们被称为收缩方法。在此线程中查看我的答复< stats.stackexchange.com/questions/499/… >和套索上Harrell的“回归建模策略”或Tibshirani。
Brett 2010年

5
@Brett Magill:+1,是的,我知道收缩和套索。现在我所需要的只是某种方法来说服心理学家说这是有道理的...但是人们一直在努力取得非常有限的成功,只是为了让心理学家报告置信区间,所以我对心理学家在下一次接受萎缩方面不太乐观20年。
Stephan Kolassa 2010年

10
我还要指出,在心理学中,最大化预测通常不是理论目标,但是逐步回归是关于最大化预测的,尽管这是一种准简化的方式。因此,过程和问题之间通常是脱节的。
Jeromy Anglim


32

没有提供用于生成模拟结果的代码。询问代码后,需要更多工作才能使其在裁判生成的数据集上运行。


2
而且它的格式不正确,未注释,并且使用了难以理解的变量和函数名。哦,是的。
naught101

30

gi窃(理论上或方法上)。实际上,我的第一篇评论确实是针对一篇论文,该论文从十年前发表的一篇成熟的方法学论文中发现了许多未引用的副本/粘贴内容。

刚刚找到了一些有关该主题的有趣论文:科学中的作者和and窃

同样,我发现伪造(数据或结果)最糟糕。


20
提醒我,在担任裁判的初期,我花太长时间来审查最终被该特定期刊拒绝的统计论文,但其他裁判和我建议对该方法进行更有用的应用,并且我还草拟了代数证明代替手稿中不令人满意的模拟研究。此后,作者已经发表了两篇论文。我对此并不感到恼火,但是诸如“我们感谢本文较早版本的审稿人的有益评论”之类的承认是很好的方式。
一站式

1
@onestop是的,我可以想象这样的情况会令人多么失望……
chl

24
几周前,我收到了一篇论文进行审查,发现其中的85%已由同一位作者发表在另一本期刊上。那也仍然被认为是窃。在过去的几年中,我经常向Web搜索引擎提交大量论文,尤其是摘要,简介和结论,然后再进行任何审查。在我花任何时间阅读之前,我想确保该作品是原创的。
Whuber

7
+ 1,@ whuber。作为一本方法论杂志的编辑,我经常要艰辛地弄清楚该贡献(通常是由知名的作者;年轻的作者还没有全部走上这一轨道)是否应确保该出版物的出版,因为他们都我们所做的就是以不同的方式重组了组成前五篇论文的八个乐高积木。这使我怀疑在前面的50篇论文,这些作者发表的贡献,太:(。
StasK

26

当我们问作者

  1. 关于我们的想法的简短评论(从这个意义上讲,这不是拒绝论文的原因,只是为了确保作者能够讨论另一个POV),或者
  2. 不清楚或矛盾的结果,

并且作者并没有真正回答情况(1)或(2)中的隐含结果已从MS中消失。


7
神秘消失的结果应该是自动拒绝,imo。我敢肯定,这种情况发生在幕后很多(即在论文提交之前),但这显然是普通读者永远不会知道的“采摘樱桃”的证据。
2012年

3
开放同行评审系统的另一个原因。
fmark

24

混淆p值和效果大小(即说我的效果很大,因为我的p值很小)。

与Stephan 排除效果大小但给出p值的答案略有不同。我同意您应该同时给两者(并希望能理解两者之间的区别!)


23

不包括效果大小。

在整个研究过程中都进行P-ing(为此我不得不赞扬我最喜欢的研究生院教授)。

提供荒谬的数字(男性比女性多3.102019英镑)

不包括页码(这使得复查更加困难)

数字和表格编号错误

(如前所述-逐步对连续变量进行分类)


7
(+1)大声笑着说:“提供了荒谬的数字(男性比女性多了3.102019磅)”。
2012年

19

当他们没有充分解释他们的分析和/或包含简单的错误时,这些错误将使您难以确定实际执行的操作。作为解释,这通常包括扔很多术语,这比作者似乎更模棱两可,也可能被滥用。


同意-甚至在评估科学内容之前都难以理解作者的意思,这确实令人讨厌。
洛朗

5
我同意,但是当审稿人告诉您省略(或转到补充材料)实际上是有关分析的非常关键的细节时,我会感到更加烦恼。这个问题使之变得如此,以至于许多进行最复杂分析的科学/社会科学论文在这方面都是很神秘的。
2012年

16

当忽略变量时,几乎可以肯定地使用因果语言描述观测数据中的关联。


3
我同意研究人员应该了解观察性研究设计的责任,尤其是那些与遗漏变量有关的责任,但是我不认为避免使用因果语言可以做到这一点。有关捍卫使用因果语言辩护的更详细论点,请参阅Hubert Blalock的著作,特别是他的《非实验研究中的因果推论》。
安迪W

3
(+1)这可能是我在流行病学研究中遇到的最大问题。
2012年

14

当作者使用一种统计测试时(无论在我的领域,通常是t检验或ANOVA),他们会无限制地使用,无论它是否合适。我最近审查了一篇论文,作者希望比较十二个不同的治疗组,因此他们对每种可能的治疗方法均进行了两次样本t检验。


13

为现有概念提出新词,反之亦然,使用现有术语表示不同的事物。

一些现有的术语差异在文献中早已解决:生物统计学中的纵向数据与计量经济学中的面板数据;社会学中的因果指标与心理学中的形成性和反思性指标;等等。我仍然讨厌它们,但至少您可以在各自的文献中找到几千个对它们的引用。最近的一本书是因果文献中关于有向无环图的全部工作:1950年代,计量经济学家以联立方程的名义开发了其中的大多数(如果不是全部)识别和估计理论。

具有双重(甚至不是多重)含义的术语是“健壮的”,并且不同的含义通常是矛盾的。“健壮”的标准误对于离群值而言并不可靠。此外,除了假设与模型的偏差外,它们对任何其他事物都不具有鲁棒性,并且通常具有令人沮丧的小样本性能。White的标准错误对串行或群集相关性不强。SEM中的“健壮”标准误差对于模型结构的错误指定(遗漏的路径或变量)而言,健壮性不强。就像使用零假设重要性检验的想法一样,不可能对任何人指责:“您有责任混淆几代研究人员,因为他们提出的这个概念并不能真正代表其名称。”


1
我必须承认犯下了两种罪过:我将我的数据描述为“具有层次结构:当我具有1:n的关系水平时(每个样本很多测量,每个病人多个样本)。在某个时候,我很偶然地了解到这被称为“集群”数据结构-现在我同时使用这两个术语,但我仍然不知道如何找到该术语,我确实不屑一顾地用这个词来描述我的数据结构...反过来:我在遥感中使用了称为软分类的技术,而我的领域(化学计量学)对它的使用则具有完全不同的含义
cbeleites 2012年

2
很好-您也可以在引用此结构的方式列表中添加“多级”。“聚集”通常意味着已知观测值是相关的,但是没有人愿意为该相关关系建模,因为它不是主要关注点,并且放弃了对这种相关性鲁棒的方法,例如GEE。您所拥有的就像是重复测量MANOVA。有一个Stata软件包gllamm将您的数据视为多级/分层数据,但大多数其他软件包会将多个度量值视为变量/列,而将样本视为观察值/行。
StasK 2012年

感谢您的输入。好吧,如今,我当然会在这里问它的名称...它不是完全重复的测量:通常我测量样品上的多个点(数量级:在10 ^ 2到10 ^ 4之间),以便产生不同成分的假色图,并且每个测量值已经具有10 ^ 2-10 ^ 3个观测值(光谱中的波长)。在每个样品中,许多光谱是高度相关的,但不是全部:样品不是均匀的。...
cbeleites 2012年

1
...您对“集群”的描述听起来很像我们所做的。但是我确实会小心地分割样本以进行验证,例如,我对有效样本大小一无所知(除了至少涉及实际样本的数量),有时还表明对每个样本均具有所有这些测量值样本实际上有助于模型训练。
cbeleites 2012年

1
当然,有趣和具有挑战性的数据。
StasK

11

零丢失数据的考虑。

许多实际应用程序使用的数据至少缺少一些值。在流行病学中,这确实是非常正确的。数据丢失给许多统计方法(包括线性模型)带来了问题。线性模型的缺失数据通常通过删除带有任何协变量的缺失数据的案例来处理。这是一个问题,除非在假设数据完全随机丢失(MCAR)的情况下丢失数据。

也许十年前,发布线性模型的结果而无需进一步考虑缺失是合理的。我当然对此感到内gui。但是,关于如何使用多重插补处理缺失数据的非常好的建议现在已经广泛可用,统计软件包/模型/库/等也是如此。当存在缺失时,可以在更合理的假设下促进更适当的分析。


1
本着尝试教育的精神,您能不能再多说明一点?您考虑什么-承认它存在或面对它调整统计分析(例如,推算)。在适用的情况下,我尝试包括supp。表中包含相关协变量的缺失值,但尚不清楚是否足以满足此评论的“考虑”需求。
Andy W

8

报告“接近重要性的效果(例如,p <.10),然后将它们写成好像它们已经在更严格和可接受的水平上变得重要了。运行多个未嵌套的结构方程模型,然后像写它们一样写它们采取一种完善的分析策略,并提出它,好像以前没有人想到过使用它一样,也许这可以说是ism窃。


也许是在重新发明轮子而不是窃?
Gerrit

7

我推荐以下两篇文章:

马丁·布兰德(Martin Bland):
如何使统计裁判员不安
这是基于马丁·布兰德(Martin Bland)进行的一系列演讲以及来自其他统计裁判员的数据(“答复率低的便利样本”)。它以11分列表的结尾表示,“ [h] ow以避免打扰统计裁判。”

史蒂安·莱德森(Stan Lydersen):
统计评论:经常给予评论
该最新论文(于2014/2015发表)列出了作者的14条最普遍的评论,基于大约。200篇科学论文的统计评论(在特定期刊中)。每个评论都有对问题的简要说明,以及有关如何正确进行分析/报告的说明。引用的参考文献列表是许多有趣论文的宝库。


Lydersen的列表很有趣。我认为我不同意其中的一些。。。
StatsStudent 2015年

6

我最(也是最经常地)对“验证”感到不满,因为“验证”针对的是预测模型的泛化误差,其中测试数据不是独立的(例如,数据中每位患者通常进行多次测量,自举法或交叉验证分裂测量结果并非如此)患者)。

更令人讨厌的是,给出如此有缺陷的交叉验证结果的论文加上独立的测试集证明了交叉验证的过度乐观偏见,但没有一个词表明交叉验证的设计是错误的...

(如果能提供相同的数据,我将非常高兴“我们知道交叉验证应分割患者,但是我们受制于不允许这样做的软件。因此,我们另外测试了一组真正独立的测试患者”)

(我也知道引导程序=替换后重采样通常比交叉验证=不替换时重采样要好。但是,我们发现对于光谱数据(模拟光谱和稍微人工模型的设置,但实际光谱)重复/迭代了交叉验证, -of-bootstrap具有相似的总体不确定性; oob的偏见更大,但方差更小-为了重新审视,我从一个非常务实的角度看待这个问题:只要有很多论文,重复进行交叉验证与out-of-boots无关紧要由于测试样本数量有限,因此既不按患者划分,也不报告/讨论/提及随机不确定性。)

除了错了,这还带来了副作用,即进行正确验证的人们常常不得不辩护,为什么他们的结果比文献中的所有其他结果差很多。


1
不确定是否要这样说,但是“乐观”引导是验证模型的最佳方法之一,并且训练和测试样本重叠。
Frank Harrell

1
@弗兰克·哈雷尔-我不确定我是否明白你的意思。可能的困难在于,在化学计量学中,“预测模型的验证”始终与新的,未知的,将来的病例(例如:诊断新患者)的表现有关。我一直使用引导外或重复/迭代交叉验证。您能解释一下与在患者级别进行拆分相比,将测试和培训集进行重叠有何好处(我认为“重叠”是指拆分测量结果,因此测试和培训度量值可以属于同一位患者,总是谈论一种患者间模型)?
cbeleites 2012年

...是的,可以回答模型验证的某些问题而无需在不同的测试和训练案例中拆分数据(例如,就系数而言的模型稳定性)。但是已经建立了模型稳定性。对预测的估计应使用未知患者(未知:在构建模型的过程中从未出现过,包括任何考虑了所有病例的数据驱动的预处理)。实际上,对于化学计量学的传统定量方法,验证所涉及的步骤需要进一步独立测量的测试数据:...
cbeleites 2012年

验证期间确定的仪器和分析方法的一个重要特征的未知操作好的做法呼叫是校准需要多久被重新做(或表示仪器漂移超过一定量的时间忽略不计) - 一些作者甚至谈到“滥用重采样”导致忽视了这种独立的测试集
cbeleites 2012年

1
如果设备或测量技术需要验证,则需要一个独立的样本。但是一个常见的错误是使用数据拆分来尝试模拟独立的验证。这仍然是内部验证。为了回答上述@cbeleites问题,与引导程序有关的重叠样本将导致对未来模型性能的更准确的估计,而不是人们可能看到的大多数数据集中的数据分割。我的数据拆分性能很差,n = 17,000和0.30的事件发生率。
弗兰克·哈雷尔

4

以单数形式使用“数据”。数据是,它们从未如此。


2
可能是法国统计学家;)
斯蒂芬·洛朗

9
我必须承认,在坚持使用数据约十年之后,我最近放弃了数据的复数使用。我通常是为非技术性读者撰写的,我担心自己会变得浮夸。APA似乎对其复数仍然有严格的了解,但有趣的是,皇家统计学会似乎没有特别的看法。这里有一个有趣的讨论:guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular
Chris Beeley,2012年

1
我不是讲英语的人,但是单数形式的“数据”或“媒体”之类的问题是英语借用了许多其他拉丁词,因此您需要以一致的方式使用所有拉丁词。下一步是什么?“课程是”还是“课程是”?“中等”?如果“数据”为拉丁文,则为复数。讨论结束。无论现在有多少人想要忽略它。
Fran

也许我滥用了它,但是我根据上下文在单数和复数之间切换。
StatsStudent 2015年

我认为“基准”一词使用率较低,并且仅在某种特殊情况下使用,我认为“数据”一词与“狼”一词等同于“包装”一词。使用单数形式的“ pack”来描述多头狼当然是可以接受的。“数据”一词正逐渐变成它自己的集体名词……
罗伯特·德·格拉夫

3

到目前为止,对我来说,归因是没有任何适当的因果分析的,或者是当因果推论不正确时。

当零关注如何处理丢失的数据时,我也讨厌它。我也看到了很多论文,其中的作者仅进行了完整的案例分析,却没有提及结果是否可以推广到缺失值的人群,或者缺失值的人群可能与有完整数据的人群有系统的区别。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.