我是心理学的研究生,随着我从事越来越多的统计学独立研究,我对正规培训的不足感到越来越惊讶。无论是个人经验还是二手经验,都表明,在心理学领域,本科和研究生培训中缺乏统计严格性的情况非常普遍。因此,我认为对于像我这样的独立学习者来说,创建一个“统计罪孽”列表是很有用的,将教给学生分级的统计实践列表为标准实践,而实际上这些实践要么被上级(更强大,或更灵活,或者健壮等)或坦率地说是无效的。预计其他领域也可能会遇到类似的情况,因此,我提出了一个社区Wiki,我们可以在其中收集跨学科的统计犯罪列表。
我是心理学的研究生,随着我从事越来越多的统计学独立研究,我对正规培训的不足感到越来越惊讶。无论是个人经验还是二手经验,都表明,在心理学领域,本科和研究生培训中缺乏统计严格性的情况非常普遍。因此,我认为对于像我这样的独立学习者来说,创建一个“统计罪孽”列表是很有用的,将教给学生分级的统计实践列表为标准实践,而实际上这些实践要么被上级(更强大,或更灵活,或者健壮等)或坦率地说是无效的。预计其他领域也可能会遇到类似的情况,因此,我提出了一个社区Wiki,我们可以在其中收集跨学科的统计犯罪列表。
Answers:
对p值的大多数解释都是有罪的!p值的常规用法存在严重缺陷。在我看来,这一事实使我们对假设检验和重要性检验的标准方法提出质疑。
Haller和Krause发现,统计讲师对学生误解p值的可能性几乎与学生相同。(在他们的论文中进行测试,看看您如何做。)史蒂夫·古德曼(Steve Goodman)很好地证明了抛弃p值的常规(误用)用法,而倾向于可能性。哈伯德论文也值得一看。
哈勒和克劳斯。对意义的误解:学生与老师分享的一个问题。心理研究方法(2002年)。7(1)页1-20(PDF)
哈伯德和巴亚里。古典统计检验的证据测度(p's)与误差(α's)的混淆。美国统计师(2003)卷。57(3)
好人。迈向循证医学统计。1:P值谬误。Ann Intern Med(1999)卷。130(12)第995-1004页(PDF)
另请参阅:
Wagenmakers,EJ。p值普遍问题的实用解决方案。心理研究与评论,14(5),779-804。
对于某些明确的情况,由于实验者的选择,即使p值的名义上“正确”的解释也被认为是错误的。
更新(2016):2016年,美国统计协会发表了有关p值的声明,请参见此处。在某种程度上,这是对心理学杂志大约一年前发布的“ p值禁令”的回应。
我在使用预测模型时遇到的最危险的陷阱是不尽早保留测试数据集,以将其专用于“最终”性能评估。
如果您有机会在调整参数,选择先验条件和选择学习算法停止条件时以某种方式使用测试数据,那么就很容易高估模型的预测准确性。
为避免此问题,在开始对新数据集进行工作之前,应将数据拆分为:
然后将您的开发集分为“培训开发集”和“测试开发集”,在其中您可以使用培训开发集来训练具有不同参数的各种模型,并根据测试开发集上的性能来选择最佳方案。您也可以使用交叉验证来进行网格搜索,但只能在开发集上进行。未100%完成模型选择时,切勿使用评估集。
一旦对模型选择和参数有信心,就对评估集执行10倍交叉验证,以了解所选模型的“真实”预测准确性。
另外,如果您的数据是临时数据,则最好选择按时间代码划分的开发/评估:“很难做出预测-尤其是对未来的预测。”
在进行数据挖掘(假设发现)而不是统计信息(假设测试)时报告p值。
测试假设与 (例如在高斯设置中)H 1:μ ≠ 0
在模型中证明是合理的(即混合使用“不被拒绝”和“为真”)。高0 高0
这种类型的(非常糟糕的)推理的一个很好的例子是,当您在假设均方差相等的情况下检验两个高斯方差是否均等之前,先测试两个高斯方差是否相等(或不相等)。
当您测试正常性(相对于非正常性)以证明正常性时,会出现另一个示例。每个统计学家都这样做是人生吗?它是baaad :)(并且应该促使人们检查非高斯性的鲁棒性)
一些令我困扰的错误:
假设无偏估计量总是比有偏估计量更好。
假定较高的表示一个好的模型,而较低的R 2表示一个坏的模型。
错误地解释/应用了相关性。
报告点估计,无标准错误。
当可以使用更健壮,性能更好的非/半参数方法时,使用假定某种多元正态性的方法(例如线性判别分析)。
使用p值作为预测变量和响应之间强度的度量,而不是度量存在某种关系的证据。
连续预测变量的二分法,以“简化”分析或解决连续预测变量影响中的非线性“问题”。
并未真正回答问题,但是有一本关于此主题的整本书:
Phillip I.Good,詹姆斯·威廉·哈丁(James William Hardin)(2003)。统计中的常见错误(以及如何避免)。威利。书号9780471460688
口译 Probability(data | hypothesis)
为Probability(hypothesis | data)
没有应用贝叶斯定理。
仪式化统计。
当您应用所学的任何东西时,无论其是否适当,这种“罪过”都是因为它是事情的完成方式。它是死记硬背的统计信息,比让机器为您选择统计信息高一层。
示例是向统计学水平的学生介绍的,他们试图使所有内容都适合他们适度的t检验和ANOVA工具包,或者在任何时候发现自己遇到“哦,我有分类数据,我应该使用X”而不用停下来查看数据,或考虑所要提出的问题。
这种罪过的一种变体是使用您不了解的代码来产生您仅了解的输出,但知道“第五列,向下大约8行”,或者您应该寻找的答案是什么。
在选择模型后,也许逐步回归和其他形式的测试。
选择自变量进行建模而在现有关系后无任何先验假设的情况下,除其他错误外,还会导致逻辑谬误或虚假相关。
有用的参考文献(从生物学/生物统计学的角度):
Kozak,M.和Azevedo,R.(2011)。使用逐步变量选择建立顺序路径分析模型是否有意义?植物生理学报,141(3),197-200。doi:10.1111 / j.1399-3054.2010.01431.x
Whittingham,MJ,Stephens,P.,Bradbury,RB,&Freckleton,RP(2006)。为什么我们仍然在生态和行为中使用逐步建模?动物生态学杂志,75(5),1182–9。doi:10.1111 / j.1365-2656.2006.01141.x
Frank Harrell,回归建模策略,Springer,2001年。
我在会议论文甚至期刊上看到的数量惊人,这是进行多次比较(例如,双变量相关),然后将所有p <.05都报告为“显着”(暂时忽略了它们的对与错)。
我也知道您对心理学专业毕业生的意思-我已经完成了心理学博士学位,但我仍然只是真正地学习。这非常糟糕,我认为心理学需要认真对待定量数据分析(如果要使用它,显然,我们应该这样做)
特别是在流行病学和公共卫生领域-在报告关联的相对度量(危险比,优势比或风险比)图表时,使用算术运算法则而不是对数标度。
更多信息在这里。
相关性暗示因果关系,它不如接受零假设那么糟糕。
A and B are correlated
通常只能推断A causes B
但看不到的东西中B causes A
……(并且忘记了C
哪些原因A
和B
)
使用ANOVA对费率数据(准确性等)进行分析,从而假设费率数据实际上是二项分布时具有高斯分布误差。 Dixon(2008)讨论了这种罪恶的后果,并探讨了更合适的分析方法。
当前流行的一种方法是在重复测量设计中,当原始性能值仅与效果的变化相关时,围绕原始性能值绘制95%的置信区间。例如,重复测量设计中具有置信区间的反应时间图,其中误差项是从重复测量ANOVA的MSE中得出的。这些置信区间并不代表任何明智的选择。它们绝对不能代表绝对反应时间。您可以使用误差项在效果周围生成置信区间,但很少这样做。
尽管我可以讲解迈克尔·卢(Michael Lew)的大部分内容,但放弃p值而采用似然比仍然遗漏了一个更普遍的问题-过于强调概率结果而不是效应大小,而这需要赋予结果实质意义。这种类型的错误有各种各样的形式和大小,我发现它是最隐蔽的统计错误。借鉴J. Cohen和M. Oakes等人的观点,我在http://integrativestatistics.com/insidious.htm上对此进行了撰写。
无法测试错误正态分布且处理之间具有恒定方差的假设。这些假设并非总是经过测试,因此在实际上不合适时,可能经常使用最小二乘模型拟合。
我在本科生开设的心理计量学入门课程花了至少两个星期的时间来教授如何进行逐步回归。在任何情况下逐步回归都是个好主意吗?
这可能是流行统计答案而不是您想要的答案,但是:
当数据高度偏斜时,使用平均值作为位置指示。
这并不一定是一个问题,如果你和你的听众知道你在说什么,但是这通常不是这种情况,并且平均往往可能给正在发生的事情的一个更好的主意。
我最喜欢的例子是平均工资,通常被称为“平均工资”。根据一个国家的收入/财富不平等状况,这可能与工资中位数有很大差异,后者可以更好地指示人们在现实生活中所处的位置。例如,在澳大利亚,我们的不平等程度相对较低,中位数比均值低10-15%。在美国,差异要大得多,中位数小于平均值的70%,并且差距正在扩大。
报告“平均”(平均)工资的结果比应保证的要乐观得多,并且还可能给许多人带来错误的印象,即他们的收入不及“正常”人。
p值是原假设为真的概率,(1-p)是替代假设为真的概率,其中不拒绝原假设的概率表示替代假设为假等。
与@dirkan类似-使用p值作为零假设成立的证据的正式度量。它确实具有一些良好的启发式和直观上良好的功能,但是本质上是不完整的证据量度,因为它没有引用替代假设。尽管在零值下数据不太可能出现(导致较小的p值),但在替代假设下,数据的可能性甚至更高。
与@ogrisel的答案类似(或几乎相同),执行Grid搜索并仅报告最佳结果。
(运气好的话会引起争议。)
使用Neyman-Pearson方法对科学实验进行统计分析。或者,更糟糕的是使用Neyman-Pearson和Fisher的混合定义不明确。