什么是常见的统计罪过?


227

我是心理学的研究生,随着我从事越来越多的统计学独立研究,我对正规培训的不足感到越来越惊讶。无论是个人经验还是二手经验,都表明,在心理学领域,本科和研究生培训中缺乏统计严格性的情况非常普遍。因此,我认为对于像我这样的独立学习者来说,创建一个“统计罪孽”列表是很有用的,将教给学生分级的统计实践列表为标准实践,而实际上这些实践要么被上级(更强大,或更灵活,或者健壮等)或坦率地说是无效的。预计其他领域也可能会遇到类似的情况,因此,我提出了一个社区Wiki,我们可以在其中收集跨学科的统计犯罪列表。


5
我知道“罪”可能是发炎的,并且统计分析的某些方面不是黑白的。我的意图是征询那些通常没有给定的常规教学方法的案例。
Mike Lawrence

5
如果愿意,您还可以将生物学/生命科学专业的学生添加到混合物中;)
nico 2010年

1
也许将其重命名为生命科学统计上的罪过?...或更具体的事情……
约翰

1
@whuber有一些很好的答案,所以我将它们合并了。

1
@Amanda,您好,您能否在此说明谈话内容?没有人喜欢被人为推翻的可能性。
naught101

Answers:



115

对p值的大多数解释都是有罪的!p值的常规用法存在严重缺陷。在我看来,这一事实使我们对假设检验和重要性检验的标准方法提出质疑。

Haller和Krause发现,统计讲师对学生误解p值的可能性几乎与学生相同。(在他们的论文中进行测试,看看您如何做。)史蒂夫·古德曼(Steve Goodman)很好地证明了抛弃p值的常规(误用)用法,而倾向于可能性。哈伯德论文也值得一看。

哈勒和克劳斯。对意义的误解:学生与老师分享的一个问题。心理研究方法(2002年)。7(1)页1-20(PDF

哈伯德和巴亚里。古典统计检验的证据测度(p's)与误差(α's)的混淆。美国统计师(2003)卷。57(3)

好人。迈向循证医学统计。1:P值谬误。Ann Intern Med(1999)卷。130(12)第995-1004页(PDF

另请参阅:

Wagenmakers,EJ。p值普遍问题的实用解决方案。心理研究与评论,14(5),779-804。

对于某些明确的情况,由于实验者的选择,即使p值的名义上“正确”的解释也被认为是错误的。

更新(2016):2016年,美国统计协会发表了有关p值的声明,请参见此处。在某种程度上,这是对心理学杂志大约一年前发布的“ p值禁令”的回应。


2
@Michael(+1)我添加了到摘要和无格式PDF的链接。希望你不要介意。
chl 2010年

7
+1,但我想发表一些批评意见。关于开场白,人们还可以说,任何明确定义的概念的“几乎所有”(从度量理论意义上)解释都是错误的,因为只有一种是正确的。其次,当您说“常规用法”和“标准方法”时,您指的是什么?这些模糊的引用听起来像个稻草人。例如,它们与统计教育文献中所发现的不一致。
ub

4
@Whuber看看Goodman的论文。这与我在药理学领域的经验非常吻合。方法说“将P <0.05视为具有统计学意义的结果”,然后结果以+表示p <0.05,++表示p <0.01,而++++表示p <0.0001。该陈述暗示着对误差率的控制为la Neyman和Pearson,但是使用不同水平的p表示费舍尔的方法,其中p值是针对无效假设的证据强度的指标。正如古德曼(Goodman)指出的那样,您不能同时控制错误率和评估证据的强度。
Michael Lew 2010年

8
@Michael对于这种报告还有其他更慷慨的解释。例如,作者可能意识到读者可能希望应用自己的重要性阈值,因此对p值进行标记以帮助他们。或者,作者可能会意识到可能的多重比较问题,并在类似Bonferroni的调整中使用不同的级别。也许应该将造成p值滥用的部分责任归咎于读者而不是作者。
ub

4
@Whuber我完全同意,但仅是您的建议在少数情况下是正确的(“完全”的受限制版本)。有些期刊规定应报告p值为一,二或三星级,而不是确切的数值,因此这些期刊对结果负有责任。但是,考虑不周的要求和对p值的天真的使用都可能是由于在我的书架上的几篇入门统计文本中缺乏对错误率和证据之间差异的清晰解释的结果。
Michael Lew 2010年

73

我在使用预测模型时遇到的最危险的陷阱是不尽早保留测试数据集,以将其专用于“最终”性能评估。

如果您有机会在调整参数,选择先验条件和选择学习算法停止条件时以某种方式使用测试数据,那么就很容易高估模型的预测准确性。

为避免此问题,在开始对新数据集进行工作之前,应将数据拆分为:

  • 开发集
  • 评估集

然后将您的开发集分为“培训开发集”和“测试开发集”,在其中您可以使用培训开发集来训练具有不同参数的各种模型,并根据测试开发集上的性能来选择最佳方案。您也可以使用交叉验证来进行网格搜索,但只能在开发集上进行。未100%完成模型选择时,切勿使用评估集。

一旦对模型选择和参数有信心,就对评估集执行10倍交叉验证,以了解所选模型的“真实”预测准确性。

另外,如果您的数据是临时数据,则最好选择按时间代码划分的开发/评估:“很难做出预测-尤其是对未来的预测。”


5
我原则上同意这一点,但是在数据集较小(我通常只有20-40个案例)的情况下,使用单独的评估集是不切实际的。嵌套的交叉验证可以解决此问题,但可能导致对小数据集的悲观估计
BGreene 2012年

11
通常,需要大量的数据集来可靠地进行数据拆分。这就是使用引导程序进行严格的内部验证如此吸引人的原因。
Frank Harrell 2013年

特别是当开发集是过去数据而评估集是未来数据时。为什么不进行所有模型调整之后,在整个开发集上训练带有固定参数的最终模型,并以此预测整个评估集。在实际情况下,无论如何您都无法以描述的方式对未来数据进行交叉验证,因此您将使用所有相关的过去数据。
大卫·恩斯特

64

在进行数据挖掘(假设发现)而不是统计信息(假设测试)时报告p值。


2
您(或某人)可以详细说明吗?
antoine-sac


对于经多重假设检验校正的p值又如何(使用Bonferroni方法或更高级的校正)呢?我倾向于认为即使在数据挖掘的情况下也可以吗?
antoine-sac 2015年

我喜欢一般的想法,但是当后者是前者的子集时,将统计与假设检验等同起来是一种扭曲。
rolando2

46

测试假设与 (例如在高斯设置中)H 1μ 0H0:μ=0H1:μ0

在模型中证明是合理的(即混合使用“不被拒绝”和“为真”)。0 0μ=0H0H0

这种类型的(非常糟糕的)推理的一个很好的例子是,当您在假设均方差相等的情况下检验两个高斯方差是否均等之前,先测试两个高斯方差是否相等(或不相等)。

当您测试正常性(相对于非正常性)以证明正常性时,会出现另一个示例。每个统计学家都这样做是人生吗?它是baaad :)(并且应该促使人们检查非高斯性的鲁棒性)


6
相同的逻辑(将“缺少证据支持H1”与“缺少证据H1”)基本上作为所有拟合优度检验的基础。人们说“检验不显着,因此我们可以得出结论,没有因素X的影响/变量Y的影响”时,这种推理也经常浮出水面。我猜想,如果伴随着关于测试功效的推理(例如,在给定一定相关效果量的情况下,先验估计样本量以达到一定功效),那么犯罪就不会那么严重了。
caracal

如果您对功率没有任何考虑,我会说在不被拒绝时要求为真是非常不好的,而在被拒绝H 0时要求H 1是正确则是有点错误:)。H0H1H0
罗宾吉拉德

大!!是的,这使我发疯..
jpillow

3
我试图做到统计学上的识字,但仍然会时不时地陷入这一困境。有哪些选择?更改模型,使旧的空值变为?我能想到的唯一其他选择是使您的学习足够强大,以至于在实践中拒绝否定词的失败实际上足以确认该否定词。例如,如果您要确保向细胞中添加试剂不会杀死超过2%的细胞,则可以提供令人满意的假阴性率。H1
DocBuckets

具有两个单面测试的@DocBuckets等价测试比基于能力的方法更为严格。但是,您需要设置一个最小的相关效果大小,在该大小以下,您可以说是等效的。
大卫·恩斯特

46

一些令我困扰的错误:

  1. 假设无偏估计量总是比有偏估计量更好。

  2. 假定较高的表示一个好的模型,而较低的R 2表示一个坏的模型。R2R2

  3. 错误地解释/应用了相关性。

  4. 报告点估计,无标准错误。

  5. 当可以使用更健壮,性能更好的非/半参数方法时,使用假定某种多元正态性的方法(例如线性判别分析)。

  6. 使用p值作为预测变量和响应之间强度的度量,而不是度量存在某种关系的证据。


5
您会将这些细分成单独的选项吗?
russellpierce

41

连续预测变量的二分法,以“简化”分析或解决连续预测变量影响中的非线性“问题”。


18
我认为这不是真正的“罪过”,因为获得的结果没有错。但是,它确实会丢弃很多有用的信息,因此不是一个好习惯。
罗伯·海德曼

2
沿着这些思路,使用极端组设计会高估效果大小,而使用均值或中位数拆分会低估效果大小。
russellpierce

2
如果有两个或多个不同的人口,这甚至不是罪过。假设您有可分离的类或子种群,那么离散化是有意义的。一个非常琐碎的例子:我宁愿使用站点/位置/城市/国家或纬度/经度的指标吗?
Iterator

3
+1,当他们开始选择二分法截止时,它变得很严重,从而优化了某种差异,然后进行测试。
Erik 2013年

5
@Iterator使您开始真正了解汇总(分为两个或多个类别)的真正原因,这是因为人们有先验的理论理由认为方差被有意义地划分为这些类别。例如,我们始终假设一万亿个左右的细胞集合构成一个个体,或者将地球上一个连续的24小时周期有意义地解释为一个单位,从而始终如此。但是,任意聚集不仅会“扔掉”信息(例如,统计能力),还会导致现象之间的(严重)偏差。
Alexis 2014年

41

并未真正回答问题,但是有一本关于此主题的整本书:

Phillip I.Good,詹姆斯·威廉·哈丁(James William Hardin)(2003)。统计中的常见错误(以及如何避免)。威利。书号9780471460688


6
+1我确保在这本书问世后不久会阅读。我有很多机会犯统计错误,所以我总是很感激在我犯错误之前就指出这些错误!
whuber


41

仪式化统计。

当您应用所学的任何东西时,无论其是否适当,这种“罪过”都是因为它是事情的完成方式。它是死记硬背的统计信息,比让机器为您选择统计信息高一层。

示例是向统计学水平的学生介绍的,他们试图使所有内容都适合他们适度的t检验和ANOVA工具包,或者在任何时候发现自己遇到“哦,我有分类数据,我应该使用X”而不用停下来查看数据,或考虑所要提出的问题。

这种罪过的一种变体是使用您不了解的代码来产生您仅了解的输出,但知道“第五列,向下大约8行”,或者您应该寻找的答案是什么。


6
不幸的是,如果您对统计推断不感兴趣,或者时间和/或资源稀缺,那么该仪式似乎确实很吸引人……
概率论

对我来说,埃皮格勒的描述是一个人,他非常在乎推理,却忽略了诸如反思,发现和对因果关系的思考。
rolando2

35

在选择模型后,也许逐步回归和其他形式的测试。

选择自变量进行建模而在现有关系后无任何先验假设的情况下,除其他错误外,还会导致逻辑谬误或虚假相关。

有用的参考文献(从生物学/生物统计学的角度):

  1. Kozak,M.和Azevedo,R.(2011)。使用逐步变量选择建立顺序路径分析模型是否有意义?植物生理学报,141(3),197-200。doi:10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham,MJ,Stephens,P.,Bradbury,RB,&Freckleton,RP(2006)。为什么我们仍然在生态和行为中使用逐步建模?动物生态学杂志,75(5),1182–9。doi:10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell,回归建模策略,Springer,2001年。


32

我在会议论文甚至期刊上看到的数量惊人,这是进行多次比较(例如,双变量相关),然后将所有p <.05都报告为“显着”(暂时忽略了它们的对与错)。

我也知道您对心理学专业毕业生的意思-我已经完成了心理学博士学位,但我仍然只是真正地学习。这非常糟糕,我认为心理学需要认真对待定量数据分析(如果要使用它,显然,我们应该这样做)


9
这一点特别重要。我记得读过一篇有关斋月是否对母亲禁食的婴儿有害的研究。看起来很合理(食物少,出生体重低),但后来我看了附录。成千上万的假设,其中百分之几属于“重要”范围。您会得到怪异的“结论”,例如“如果斋月是第二,第四或第六个月对孩子来说是有害的”。
卡洛斯,

29

探索性的,但假装是确定性的。这可以在一个被修改的分析策略(即模型拟合,变量选择等)驱动的数据发生或造成驱动,但没有说明这种公开,然后只报告“最好”(即最小p值)的结果,如果这是唯一的分析。这也与克里斯·比利(Chris Beeley)进行的多次测试并导致科学报告中的假阳性率高有关。


26

我经常看到并且经常磨碎我的齿轮的假设是,一个组中具有统计学显着性的主效应和另一组中非统计显着性的主效应意味着显着性效应x组交互作用。


24

特别是在流行病学和公共卫生领域-在报告关联的相对度量(危险比,优势比或风险比)图表时,使用算术运算法则而不是对数标度。

更多信息在这里


5
更不用说不在所有标签上加标签了xkcd.com/833
radek 2010年

23

相关性暗示因果关系,它不如接受零假设那么糟糕。


但是有时...有时因果关系的潜在可能性截然不同。我当然不会认为年龄和身高之间的相关性可能是由身高引起的……或者是一些中间变量。另外,我认为这是行为科学培训通常非常敏感的一种。
约翰

确实,从A and B are correlated通常只能推断A causes B但看不到的东西中B causes A……(并且忘记了C哪些原因AB
Andre Holzner 2010年

12
谷歌一年赚65B美元,不关心差价...
尼尔·麦奎根2010年

5
我同意您的观点,它们都是有效的。但是Google的利润是否暗示:相关=>因果关系?
suncoolsu 2010年

3
Google赚到的钱根本就不在乎因果关系。确实,为什么会这样?预测就是问题……
共轭木

23

使用ANOVA对费率数据(准确性等)进行分析,从而假设费率数据实际上是二项分布时具有高斯分布误差。 Dixon(2008)讨论了这种罪恶的后果,并探讨了更合适的分析方法。


4
这会在多大程度上降低分析能力?在什么情况下最有问题?在许多情况下,偏离方差分析的假设并不会在很大程度上影响结果。
Michael Lew 2010年

方差分析程序有什么替代方法?
亨里克

@Michael Lew&Henrik:我刚刚更新了此条目,其中包括指向Dixon(2008)的链接
Mike Lawrence 2010年

2
但是总而言之,当观察到的概率较低或较高时,这是最成问题的,因为值的范围受到限制并且无法满足高斯假设。
russellpierce

这仅与二项式的正常近似值一样糟糕-应该很好,只要每种情况都由计算速率时使用的分母加权即可。希望它在低于10%和高于90%的速率下表现不佳。
概率

18

当前流行的一种方法是在重复测量设计中,当原始性能值仅与效果的变化相关时,围绕原始性能值绘制95%的置信区间。例如,重复测量设计中具有置信区间的反应时间图,其中误差项是从重复测量ANOVA的MSE中得出的。这些置信区间并不代表任何明智的选择。它们绝对不能代表绝对反应时间。您可以使用误差项在效果周围生成置信区间,但很少这样做。


是否有可以引用的标准文章来阻止审稿人要求这种过于常见的做法?
russellpierce

我知道的唯一批评是布劳恩和里奥佩尔(Blouin&Riopelle,2005年),但他们并没有引起关注。我通常不坚持不显示它们,而是做正确的事情,如Masson&Loftus(2003,参见图4,右图)的效果图...如果将它们从左图中删除,则说明您做对了)。
约翰

需要明确的是,这些配置项的问题在于,它们纯粹出于推断条件之间的差异而使用,因此甚至比PLSD还差……事实上,我更喜欢它们。至少他们是诚实的。
约翰

17

尽管我可以讲解迈克尔·卢(Michael Lew)的大部分内容,但放弃p值而采用似然比仍然遗漏了一个更普遍的问题-过于强调概率结果而不是效应大小,而这需要赋予结果实质意义。这种类型的错误有各种各样的形式和大小,我发现它是最隐蔽的统计错误。借鉴J. Cohen和M. Oakes等人的观点,我在http://integrativestatistics.com/insidious.htm上对此进行了撰写。


3
我实际上还不清楚似然比(LR)如何无法实现效果大小所能达到的所有目标,同时还采用了易于理解的标度(数据包含的Y证据比X证据多X倍)。效果大小通常只是解释的与无法解释的可变性之比的某种形式,而(在嵌套情况下)LR是有效果的模型与没有解释的可变性之间的无法解释的可变性的比率。效应大小和LR之间至少不应该有很强的相关性吗?如果是这样,那么转移到似然比量表会损失什么呢?
麦克劳伦斯

迈克-您引起了我的兴趣,但是您的观点会延伸到效果大小,就像组之间的均值差一样简单吗?外行人可以很容易地解释这些问题,也可以为其分配置信区间。
rolando2 2011年

嗯,所谓效应量,是指绝对效应量,这个值本身没有意义,但可以通过转换为相对效应量(如前所述,除以某种程度的可变性)或通过计算而变得有意义绝对效果大小的置信区间。我上面的论点适用于LR与相对效应大小的优缺点。在效果的实际值令人关注(例如预测)的情况下,可能会使用效果CI进行计算,但是我仍然坚持认为LR是一种更为直观的​​量表,用于讨论效果证据/反对效果。
Mike Lawrence

我猜想,LRs与CIs的使用可能会根据上下文而有所不同,可以将其总结如下:在科学的更多探索阶段,其中理论大致以现象的存在/不存在为特征,可能更倾向于LRs来量化证据。另一方面,CI在科学的更高级阶段可能是更可取的,在CI的理论被充分完善以允许进行细微预测的情况下,包括预期效果的范围,或者相反,当不同范围的效果量值支持不同的理论时,则更是如此。最后,从任何模型生成的预测都需要配置项。
Mike Lawrence

0|β|=1|β|>1|β|1β=0β0

15

无法测试错误正态分布且处理之间具有恒定方差的假设。这些假设并非总是经过测试,因此在实际上不合适时,可能经常使用最小二乘模型拟合。


11
当数据为非正态或异方差时,最小二乘估计是否不合适?它不是完全有效的,但是仍然没有偏见和一致。
罗伯·海德曼

3
如果数据是异方差的,那么最终可能会导致样本预测非常不准确,因为回归模型将过分努力以最大程度地减小高方差区域中样本的误差,而对低方差区域中样本的误差不够大。这意味着您可能会得到一个非常严重的偏差模型。这也意味着预测中的误差条将是错误的。
Dikran有袋动物博物馆,2010年

6
不,它没有偏见,但与您出于解释原因而使用更有效的方法相比,差异更大。是的,预测间隔是错误的。
罗伯·海德曼

4
是的(我在口语中使用偏见而非统计意义来表示模型在特征空间的高方差区域(mea culpa!)中系统地偏向于观测。)-准确地说,高方差意味着使用有限数据集获得较差模型的机会增加。这似乎是您问题的合理答案。我并不真正认为无偏不那么舒服-重要的是该模型应该对我实际拥有的数据给出良好的预测,而方差通常更重要。
Dikran有袋动物博物馆,2010年

14

我在本科生开设的心理计量学入门课程花了至少两个星期的时间来教授如何进行逐步回归。在任何情况下逐步回归都是个好主意吗?


6
“好主意”取决于情况。当您想最大化预测时,这并不是一个可怕的主意-尽管它可能导致过度拟合。在少数情况下,这是不可避免的-没有理论指导模型的选择。我不会将逐步回归视为“罪过”,而是在理论足以驱动模型选择时使用它。
russellpierce

20
也许罪魁祸首是对通过逐步回归获得的模型进行统计检验。
罗伯·海德曼

3
如果您使用交叉验证,并且不进行推断,那就很好。不过不要发布p值,因为它们没有意义。
尼尔·麦圭根

我正在使用逐步回归的项目中。原因是因为我有D >> N,其中D是维度,N是样本大小(因此,使用一个包含所有变量的模型进行排除),特征的子集彼此高度相关,我想要一种统计上原则的方式选择大约2-3个“最佳”功能,至少在没有某种相当保守的校正的情况下,我无意报告P值。
dsimcha 2011年

12

我以前的统计专家有一个处理异常值的“经验法则”:如果在散点图上看到异常值,请用拇指掩盖它:)


这类似于Winsorization,但并不可怕。
阿里·弗里德曼

12

这可能是流行统计答案而不是您想要的答案,但是:

当数据高度偏斜时,使用平均值作为位置指示

这并不一定是一个问题,如果你和你的听众知道你在说什么,但是这通常不是这种情况,并且平均往往可能给正在发生的事情的一个更好的主意。

我最喜欢的例子是平均工资,通常被称为“平均工资”。根据一个国家的收入/财富不平等状况,这可能与工资中位数有很大差异,后者可以更好地指示人们在现实生活中所处的位置。例如,在澳大利亚,我们的不平等程度相对较低,中位数比均值低10-15%。在美国,差异要大得多,中位数小于平均值的70%,并且差距正在扩大。

报告“平均”(平均)工资的结果比应保证的要乐观得多,并且还可能给许多人带来错误的印象,即他们的收入不及“正常”人。


:有这样一个半相关的讨论,因为它适用于这里的趋势分析tamino.wordpress.com/2012/03/29/...
naught101

2
这不仅与偏度有关,而且是一个普遍的问题,即在不考虑分散性的情况下,均值或其他任何集中趋势的度量都不够。例如,如果两组的中位数相等,但四分位间距为一个人口的100倍。仅看中位数,您会说它们是“相同的人口分布”,而实际上它们却大不相同。更不用说多种模式制造问题了……
概率

但是,出于某些目的,均值相关的:工资是一个广泛的变量,这意味着工资的总和是有意义的。对于某些(子)群体的总工资收入相关的问题,均值是正确的事情:总数可以从均值而不是中位数中回收。
kjetil b halvorsen

@kjetilbhalvorsen:为什么不只使用总数呢?
naught101

n


10

与@dirkan类似-使用p值作为零假设成立的证据的正式度量。它确实具有一些良好的启发式和直观上良好的功能,但是本质上是不完整的证据量度,因为它没有引用替代假设。尽管在零值下数据不太可能出现(导致较小的p值),但在替代假设下,数据的可能性甚至更高


我之所以没有回答,是因为我不想麻烦自己想一想,为此,我会仔细研究所有已经给出的内容,以确保我不再重复!但我认为我会有所帮助。Good and Hardin写了一本书,名为“统计中的常见错误以及如何避免它们”。您可以在那里找到很多很棒的例子。这是一本很受欢迎的书,已经进入第四版了。
迈克尔·切尔尼克

Altman在Chapman&Hall / CRC撰写的《医学研究中的统计学》一书中也提到了医学文献的一章,该章揭示了许多发表在论文中的统计错误。
迈克尔·切尔尼克


9

在假设检验中使用统计/概率来衡量“绝对真理”。统计信息根本无法做到这一点,它们只能用于决定替代方案,而这些替代方案必须从统计范式的“外部”指定。诸如“通过统计证明虚无假设”这样的说法是不正确的;统计信息只能告诉您“与替代假设相比,数据支持零假设”。如果您随后假设原假设或替代假设必须为真,则可以说“原证明为真”,但这只是假设的琐碎结果,数据上没有任何证明。



8

(运气好的话会引起争议。)

使用Neyman-Pearson方法对科学实验进行统计分析。或者,更糟糕的是使用Neyman-Pearson和Fisher的混合定义不明确。


遗憾地成为无知者,但是Neyman-Pearson构造对科学实验(的结果)进行分析有什么问题?
安德烈·霍尔兹纳

@Andre我认为此评论可能与@Michael Lew在此线程其他地方提供的另一条评论(stats.stackexchange.com/questions/4551/…)密切相关。
whuber

8

请求并可能获取流程图:用图形表示的内容,您可以说出变量的级别以及所要查找的关系,然后按照箭头向下方向进行品牌名称测试或品牌名称统计。有时会提供神秘的“参数”和“非参数”路径。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.