我最近问了一个有关围绕论文统计的一般原则的问题。我现在想问的是,在审阅论文时特别令您烦恼的是什么,即真正惹恼统计裁判员的最佳方法是什么!
请为每个答案举一个例子。
我最近问了一个有关围绕论文统计的一般原则的问题。我现在想问的是,在审阅论文时特别令您烦恼的是什么,即真正惹恼统计裁判员的最佳方法是什么!
请为每个答案举一个例子。
Answers:
令我个人特别恼火的是那些清楚地使用用户编写的统计软件软件包,但却没有正确引用或根本没有引用它们的人,因而未能对作者表示赞赏。当作者在学术界并且他们的工作依赖被引用的发表论文时,这样做特别重要。(也许我应该补充一点,在我的领域中,许多罪魁祸首不是统计学家。)
天哪,我想到了很多事情...
逐步回归
提供p值,但不衡量效果大小
使用均值和标准差描述数据,而无需指出数据是否大致对称和单峰
没有清晰标题的数字(这些误差线是平均值的标准误差,还是组内的标准偏差,或者是什么?)
艾琳·斯特拉顿(Irene Stratton)和他的同事发表了一篇有关一个密切相关问题的简短论文:
Stratton IM,Neil A. 如何确保统计审查员拒绝您的论文。糖尿病医学 2005; 22(4):371-373。
gi窃(理论上或方法上)。实际上,我的第一篇评论确实是针对一篇论文,该论文从十年前发表的一篇成熟的方法学论文中发现了许多未引用的副本/粘贴内容。
刚刚找到了一些有关该主题的有趣论文:科学中的作者和and窃。
同样,我发现伪造(数据或结果)最糟糕。
当作者使用一种统计测试时(无论在我的领域,通常是t检验或ANOVA),他们会无限制地使用,无论它是否合适。我最近审查了一篇论文,作者希望比较十二个不同的治疗组,因此他们对每种可能的治疗方法均进行了两次样本t检验。
为现有概念提出新词,反之亦然,使用现有术语表示不同的事物。
一些现有的术语差异在文献中早已解决:生物统计学中的纵向数据与计量经济学中的面板数据;社会学中的因果指标与心理学中的形成性和反思性指标;等等。我仍然讨厌它们,但至少您可以在各自的文献中找到几千个对它们的引用。最近的一本书是因果文献中关于有向无环图的全部工作:1950年代,计量经济学家以联立方程的名义开发了其中的大多数(如果不是全部)识别和估计理论。
具有双重(甚至不是多重)含义的术语是“健壮的”,并且不同的含义通常是矛盾的。“健壮”的标准误对于离群值而言并不可靠。此外,除了假设与模型的偏差外,它们对任何其他事物都不具有鲁棒性,并且通常具有令人沮丧的小样本性能。White的标准错误对串行或群集相关性不强。SEM中的“健壮”标准误差对于模型结构的错误指定(遗漏的路径或变量)而言,健壮性不强。就像使用零假设重要性检验的想法一样,不可能对任何人指责:“您有责任混淆几代研究人员,因为他们提出的这个概念并不能真正代表其名称。”
gllamm
将您的数据视为多级/分层数据,但大多数其他软件包会将多个度量值视为变量/列,而将样本视为观察值/行。
零丢失数据的考虑。
许多实际应用程序使用的数据至少缺少一些值。在流行病学中,这确实是非常正确的。数据丢失给许多统计方法(包括线性模型)带来了问题。线性模型的缺失数据通常通过删除带有任何协变量的缺失数据的案例来处理。这是一个问题,除非在假设数据完全随机丢失(MCAR)的情况下丢失数据。
也许十年前,发布线性模型的结果而无需进一步考虑缺失是合理的。我当然对此感到内gui。但是,关于如何使用多重插补处理缺失数据的非常好的建议现在已经广泛可用,统计软件包/模型/库/等也是如此。当存在缺失时,可以在更合理的假设下促进更适当的分析。
报告“接近重要性的效果(例如,p <.10),然后将它们写成好像它们已经在更严格和可接受的水平上变得重要了。运行多个未嵌套的结构方程模型,然后像写它们一样写它们采取一种完善的分析策略,并提出它,好像以前没有人想到过使用它一样,也许这可以说是ism窃。
我推荐以下两篇文章:
马丁·布兰德(Martin Bland):
如何使统计裁判员不安
这是基于马丁·布兰德(Martin Bland)进行的一系列演讲以及来自其他统计裁判员的数据(“答复率低的便利样本”)。它以11分列表的结尾表示,“ [h] ow以避免打扰统计裁判。”
史蒂安·莱德森(Stan Lydersen):
统计评论:经常给予评论
该最新论文(于2014/2015发表)列出了作者的14条最普遍的评论,基于大约。200篇科学论文的统计评论(在特定期刊中)。每个评论都有对问题的简要说明,以及有关如何正确进行分析/报告的说明。引用的参考文献列表是许多有趣论文的宝库。
我最(也是最经常地)对“验证”感到不满,因为“验证”针对的是预测模型的泛化误差,其中测试数据不是独立的(例如,数据中每位患者通常进行多次测量,自举法或交叉验证分裂测量结果并非如此)患者)。
更令人讨厌的是,给出如此有缺陷的交叉验证结果的论文加上独立的测试集证明了交叉验证的过度乐观偏见,但没有一个词表明交叉验证的设计是错误的...
(如果能提供相同的数据,我将非常高兴“我们知道交叉验证应分割患者,但是我们受制于不允许这样做的软件。因此,我们另外测试了一组真正独立的测试患者”)
(我也知道引导程序=替换后重采样通常比交叉验证=不替换时重采样要好。但是,我们发现对于光谱数据(模拟光谱和稍微人工模型的设置,但实际光谱)重复/迭代了交叉验证, -of-bootstrap具有相似的总体不确定性; oob的偏见更大,但方差更小-为了重新审视,我从一个非常务实的角度看待这个问题:只要有很多论文,重复进行交叉验证与out-of-boots无关紧要由于测试样本数量有限,因此既不按患者划分,也不报告/讨论/提及随机不确定性。)
除了错了,这还带来了副作用,即进行正确验证的人们常常不得不辩护,为什么他们的结果比文献中的所有其他结果差很多。
以单数形式使用“数据”。数据是,它们从未如此。
到目前为止,对我来说,归因是没有任何适当的因果分析的,或者是当因果推论不正确时。
当零关注如何处理丢失的数据时,我也讨厌它。我也看到了很多论文,其中的作者仅进行了完整的案例分析,却没有提及结果是否可以推广到缺失值的人群,或者缺失值的人群可能与有完整数据的人群有系统的区别。