是否有关于统计学的高引用论文实际上散布了不良的统计实践？

显然有许多方法可以滥用统计方法。您是否知道在公认的学术期刊上首先作为显式建议（例如，“您应使用此方法...”）发表过一些不良统计实践的例子？

一个示例可能是每个预测变量规则的10个事件，通常会在logistic或Cox PH回归模型（LINK）中调用该事件。

需要明确的是，我并不是指被引用次数很高的论文碰巧使用了不良的统计方法-不幸的是，这些论文很少见。

references statistical-falsehoods

— DL Dahly
source

您是否正在寻找统计期刊的原始出版物？在非统计期刊上传播的统计不良作法是没有止境的（当审阅者指出某事有误时，作者通常会争论不休，以“将我们的论文与先前的研究联系起来”）。不过，由于坏主意是独立出现的，因此很难找出任何原始出版物来进行诸如离散化连续结果之类的事情。

— 斯蒂芬·科拉萨

我的意思是说是明确的建议，例如“这样做...”。我已编辑问题以澄清问题。谢谢。

— DL Dahly

在统计日志中，您通常不会看到显式的“执行此操作”命令。您会在某些应用领域中看到它，特别是当那些批评某些有问题的做法的人写的时候（他们有时会说“不做A，做B”，但他们自己可能会给出相当可疑的建议。）您追求的是什么？我很少阅读其他领域的期刊，但过去我曾看过类似的论文（即使我能确切记得确切的位置，我也不能说我知道他们中的任何一个是否被高度引用）.... ctd

— Glen_b-恢复莫妮卡

ctd ...虽然不是论文，但我可以在教科书中指出一些可疑的建议，这些建议似乎在学习为应用领域的研究进行统计的人们中很受欢迎。

— Glen_b-恢复莫妮卡

请解释“统计虚假”的含义。这不是统计学中的标准概念，它涉及推荐或多或少适合给定任务的程序。是的，众所周知某些程序比其他程序差，但很难将其解释为“虚假”。所谓“虚假”，是指某种误导性的解释，或使用不可接受的程序的建议，或基于数学错误的建议，或...什么？

— whuber

Answers:

RA Fisher，“现场实验的安排”。英国农业部杂志。33：503–513。1926年。

根据互联网上的各种来源，本文是在任意统计检验中使用作为显着性阈值的起源。 $\alpha = 0.05$

...可以很方便地在大约可以说的水平上划界线：“要么是治疗中有什么东西，要么是巧合，例如在二十次试验中发生的次数不超过一次。”

...如果二十分之一的赔率似乎不够高，我们可能会（如果我们愿意）以50分之一（2％的点）或100分之一（1％的点）画线。就个人而言，作者倾向于将显着性标准定为5％，而忽略所有未能达到此水平的结果。仅当经过适当设计的实验很少能够给出如此重要的意义时，才应将科学事实视为实验依据。

— 比目鱼
source

在计量经济学中，您一定可以找到一些体面的期刊上发表的知名（且技术娴熟）的计量经济学家传播方法的示例。我不了解理论论文，但Lalonde（1986）指出当前使用的方法效果不佳：他比较了相同数据集的实验方法和观察方法，发现（因果）治疗领域存在很大差异评估。有大量文献的确传播了这些非实验方法，这些方法在那时已经被使用，并且今天仍然经常使用。

随后，有（并且我认为仍然是）关于倾向得分匹配是否是可能的解决方案的争论（例如，参见此处）。

此外，关于工具变量估计存在很多争议。被高引用的原始论文的结论存在争议。这可能是最接近您问题的示例。Bound和Jaeger（1996年，及其后的论文）质疑了Angrist和Krueger（1991；根据Google Scholar引用2700）的著名论文的发现，该论文基本上在应用计量经济学文献中建立了工具变量方法。

关于建立因果关系的所谓简化形式估计的适当性也有大量争论，例如，参见Imbens（2010）。

当然，另一个大话题是关于标准错误。也许可以找到传播p值的著名论文。在计量经济学中，由于存在错误的现有方法，经常会错误地计算出较长时间序列的标准误差（在差分设计中），请参见此处。但是，我不知道在这种情况下提出这些方法的原始高被引论文，但是我相信您会在这方面找到一些例子。

资料来源：

Angrist，Joshua D.和Alan B. Keueger。“义务教育是否会影响入学和收入？”。经济学季刊106，第1期。4（1991）：979-1014。

Bertrand，Marianne，Esther Duflo和Sendhil Mullainathan。“我们应该相信差异差异估计有多少？” 经济学季刊119号。1（2004）：249-275。

Bound，John和David A. Jaeger。关于出生季节作为工资等式中工具的有效性：对Angrist＆Krueger的“义务教育出勤率是否会影响学校号w5835”的评论。国家经济研究局，1996年。

拉杰夫的德赫加。“实用倾向得分匹配：对史密斯和托德的答复。” 计量经济学杂志125，no。1-2（2005）：355-364。

Imbens，GuidoW。“迟迟没有成功：对Deaton（2009）和Heckman and Urzua（2009）的一些评论。” 经济文献杂志48，第1期。2（2010）：399-423。

LaLonde，RobertJ。“使用实验数据评估培训计划的计量经济学评估。” 美国经济评论（1986）：604-620。*

— 阿恩·乔纳斯·沃恩克
source

我尝试一下（尽管不那么强大）：

非常有用[Cameron，AC，＆Miller，DL（2015）。集群鲁棒推理的从业人员指南。Journal of Human Resources，50（2），317-372。] //已有1900篇Google学术论文引用//提供了有关标准错误聚类适当水平的建议：

“共识是保守，避免偏见，并在可能的情况下使用更大和更多的聚合集群，直到并包括人们担心集群太少的时候为止。”

但是，[Abadie，A.，Athey，S.，Imbens，GW，＆Wooldridge，J.（2017）。何时应调整群集的标准错误？（编号w24003）。国家经济研究局。]表明“事实上，聚集程度过高实际上是有害的”。请参阅后面的第1页：https : //economics.mit.edu/files/13927

也许您还可以从Abadie等人（2017）强调的两个误解开始做出更糟的案例。

— 亚历山大（Alexandre Cazenave-Lacroutz）
source