统计中的过时做法有哪些例子?


55

我指的是仍能保留其存在的做法,即使它们旨在解决的问题(通常是计算性问题)已基本解决。

例如,发明了Yates的连续性校正可以近似于测试的Fisher精确测试,但是由于软件现在甚至可以处理大量样本,也可以处理Fisher的测试,因此不再实用(我知道这可能不是“保持其存在”,因为像Agresti的“ 分类数据分析 ”这样的教科书经常承认“不再需要Yates的修正”)。χ2

这种做法还有哪些其他示例?


我实际上不是很确定卡方检验是否因执行Fisher精确检验的计算能力而过时了,例如您的边际是否真的固定?例如,请参见 @gung 对另一个问题回答。(我很确定我们有一个线程可以更详细地讨论这个问题,但是我找不到它,因为我们遇到了很多“应该使用卡方还是应该使用费舍尔精确检验”的问题,何时出现?我搜索!)
银鱼

@Silverfish:我不是说变得过时,只有耶茨的修正才是。我相信研究表明,当边际不固定时,耶茨的矫正过于保守。迈克尔·哈伯(Michael Haber)的文章《连续性校正和统计测试对此进行了评论。χ2
弗朗西斯


用OLS代替LAD?
PatrickT

5
@PatrickT:我有很多的麻烦调用OLS不合时宜。当然,在某些特殊情况下,LAD显然是优越的...但是在另一个方向上也可以这样说。
Cliff AB

Answers:


49

强烈争论的是,阈值显着性水平(例如或是自大多数研究人员依赖于先前计算的临界值表以来的历史遗留物。现在好的软件将直接给出。确实,好的软件可以让您自定义分析,而不必依赖教科书测试。P = 0.01 PP=0.05P=0.01P

如果仅因为某些重要的测试问题确实需要决策,就存在争议,例如在质量控制中,需要接受或拒绝一批是决定,然后采取任何一种行动。但是,即使是在这里,使用的阈值也应该脱离风险分析而发展,而不取决于传统。而且在科学中,定量指示的分析通常比决策更合适:定量思考意味着关注大小,而不仅仅是关注粗略的二分法,重要与不重要。P

我将在此标记我涉及一个复杂而有争议的问题,这是整本书和可能数千篇论文的重点,但这似乎是该主题的一个很好的例子。


4
很好的例子!作为参考,该线程值得一提:关于p值,为什么要1%和5%?为什么不6%或10%?
弗朗西斯

5
@ JM我有95%的信心你是正确的,尽管我不是99%的信心。
马克·L·斯通

5
实际上,我不确定这是一个很好的例子。的确,以进行测试比以前要容易得多,但是我从来没有见过一个很好的论据,为什么在特殊情况(例如质量控制)之外,您为什么,在这种情况下我不愿意这样做?不知道仍然使用任意显着性水平。α=0.038561
Cliff AB

4
@CliffAB我不认为确切的P值的要点是,您然后确定它构成您要采用的关键水平。我当然不是在建议或提倡这一点。这里的部分论点不仅是0.05和0.01处于最佳常规水平,而且检验提供了一种方法来评估无效假设的证据强度,而不是做出二元决策。实际上,在许多领域中,0.05和0.01的水平仍然非常常用。
尼克·考克斯

4
@尼克·考克斯(Nick Cox)别忘了悠闲悠闲的人群的0.1水平。
Mark L. Stone

24

我认为该站点的许多访问者会同意我的一种方法是逐步回归。它仍然一直在进行,但是您不必在此站点上搜索很多专家就说它的用法令人遗憾。像LASSO这样的方法是更可取的。


4
哈!!您建议用下一代时代错误(LASSO)代替时代错误(逐步回归),后者是自己时代的时代错误,其拥护者尚未意识到。参见stats.stackexchange.com/questions/162861/…
马克·L·斯通

3
@ MarkL.Stone:嘿,至少在正确方向上已经有20年了。我对这些方法不是很熟悉,因此我必须先阅读它们,然后才能表示赞同。
Cliff AB

2
快速阅读本文后,我有点犹豫,以为LASSO正式过时了,尽管它显然并不总是最佳选择。也许在5年后,我会更轻松地将LASSO称为过时的。
Cliff AB

2
@amoeba:我认为Mark指的是使用LASSO作为最佳子集回归工具的做法。例如,我隐约地回忆起曾经读过某人讨论首先拟合LASSO,然后使用非零回归参数重新拟合非惩罚模型的情况。最佳子集回归可能是执行此操作的更直接方法(尽管您说过,即使分析人员要这样做,也不清楚这是否是一个好主意)。
Cliff AB

2
...并且该论文提出了至少一种情况(即在某些参数下进行仿真),它显然可以胜任LASSO的工作,尽管我认为我们都完全知道我们应该认真对待这些结果。
Cliff AB

17

我的观点是,至少在(应用的)计量经济学中,使用稳健的或经验的协方差矩阵而不是(渐近地)依赖(渐近地)依赖于协方差矩阵的正确规范的“不合时宜的做法”已成为越来越多的规范。当然,这并非没有争议:请参阅我在CrossValidated上在此处链接的一些答案,但这当然是一个明显的趋势。

示例包括异方差稳健的标准误差(Eicker-Huber-White标准误差)。诸如Angrist和Pischke之类的一些研究人员显然建议始终使用异方差稳健的标准误差,而不是使用“过时的”程序将正常标准误差作为默认值,并检查是否有必要保证假设。E[uu]=σ2In

其他示例包括面板数据,例如Imbens和Wooldridge在他们的演讲幻灯片中写道,他们反对使用随机效应方差协方差矩阵(这是默认情况下假定方差成分中存在一些误导性)。

完全鲁棒的推断是可用的,通常应使用。(注意:仅依赖于和的常规RE方差矩阵无需正确指定!在估计中使用它仍然有意义,但可以使推理更可靠。) σ 2 ùσc2σu2

使用广义线性模型(对于属于指数族的分布),通常建议始终使用所谓的三明治估计器,而不是依靠正确的分布假设(此处不合时宜的做法):例如,参见此答案Cameron所指因为伪最大似然估计在错误指定的情况下非常灵活(例如,如果负二项式正确,则使用Poisson),因此可以对数据进行计数

对于Poisson回归,必须进行此类[White]标准误差校正,因为它们比OLS的类似异方差校正具有更大的差异。

格林在其第十四章的教科书中(例如,在他的网站上提供)写了一个批注,并详细介绍了这种做法的优缺点:

不论似然函数如何,当前文献中都有一种常规计算此[三明治]估计量的趋势。* [*] *我们再次强调,三明治估计量本身并不一定是任何如果似然函数指定不正确,并且M估计量的其他条件不满足,则为。


4
有趣,但是问题是什么是过时的,而不是现在越来越标准的,所以答案必须倒过来。
Nick Cox

1
嗨,尼克,谢谢您的评论(和您所做的编辑),我修改了文本以强调什么是不合时宜的做法,希望它变得更清楚一些。我没有反转整个文本,因为以前的做法几乎没有对标准错误做任何特别的事情。
Arne Jonas Warnke

在某些情况下,这是不自然的,不可能使用健壮的替代方法,例如时间序列。因此,我认为它不再是“更受欢迎”,而只是“在某些领域更受欢迎”。
Henry.L 16/12/14

13

一直不必要使用的一种方法是对p值进行Bonferroni校正。尽管多重比较一直是一个大问题,但Bonferroni校正对于p值实际上已过时:对于Bonferroni校正有效的任何情况,Holm-Bonferroni也是有效的,因为在这种情况下,Bomferroni校正将具有更高的功效如果,则为备选,其中是检验的假设的数量(等式)。m m = 1m>1mm=1

我认为Bonferroni矫正持续存在的原因是易于使用心理(即p = 0.004,很容易调整为0.12,而Holm-Bonferroni需要对p值进行排序)。m=30


来到这里发布这个。另外:不确信在任何情况下FWER都会比更新的FDR方法更受青睐(因为可伸缩性和适应性强)。
亚历克西斯

13

大多数不合时宜的做法可能是由于统计学的教学方式以及分析是由仅参加了几门基础课的大量人进行的事实所致。我们通常会教一组标准的统计思想和程序,因为它们形成了不断增加的概念复杂性的逻辑序列,这种逻辑序列在教学上是有意义的(参见,我们怎么能知道总体方差?)。我本人对此感到内::我偶尔会教统计101和102,而且我经常说:“有更好的方法可以做到这一点,但这超出了本课程的范围”。对于那些没有按入门顺序进行学习的学生(几乎全部),他们将获得基本但被取代的策略。

  1. 对于统计101的示例,可能最常见的不合时宜的做法是测试某些假设,然后运行传统的统计分析,因为该测试并不重要。从一开始,一种更现代/更高级/更可辩护的方法是使用一种对该假设具有鲁棒性的方法。有关更多信息的一些参考:

  2. 对于统计数据102的示例,已经过时了许多建模实践:

    • 转换以实现残差的正态性,以获得可靠的与自举。 pYp
    • 转换以获得同质性,而不是使用三明治估计器等。 Y
    • 使用高阶多项式来捕获曲率与三次样条曲线。
    • 使用和样本内拟合优度(例如而不是交叉验证来评估用于预测的模型。 - [R 2pR2
    • 使用重复测量数据,对连续变量进行分类,以便可以使用rmANOVA或对多个测量求平均值,而不是使用线性混合模型。
    • 等等。

在所有这些情况下,问题的关键是人们正在做入门课中首先教过的事情,因为他们根本不知道更高级,更合适的方法。


5

一个非常有趣的示例是计量经济学中的单位根检验。尽管有很多选择可以针对时间序列的滞后多项式进行检验或针对单位根进行选择(例如,(增强的)迪基·富勒检验或KPSS检验),但是当人们使用贝叶斯分析时,可以完全规避该问题。 。Sims在题为《理解单位根源: 1991年的直升机之旅》的挑衅性论文中指出了这一点。

单位根检验仍然有效,并已在计量经济学中使用。尽管我个人将其归因于人们不愿适应贝叶斯实践,但许多保守的计量经济学家通过说贝叶斯的世界观与计量经济学研究的前提相抵触来捍卫单位根检验的实践。(也就是说,经济学家将世界视为具有固定参数的地方,而不是由某些超参数控制的随机参数。)


5
我将对贝叶斯实践如何规避这些测试的简短讨论感兴趣。换句话说,您将如何提出这一主张?
Mike Hunter

我必须承认,自从阅读本文以来已经有一段时间了,但是要点是,对于时间序列的贝叶斯分析,使用平整先验可以使用标准t值。
耶利米斯K'6


1

在假设检验的常识性领域中教导/进行差异的两尾检验而没有同时进行对等检验,这是对确认偏差的坚定承诺。

有一些细微差别,因为适当的功效分析具有对效应大小的周到定义,可以防止这种情况,并提供或多或少的相同类型的推论,但是(a)功效分析经常在提出发现时被忽略,并且(b)已经从未见过的功率分析,例如,估计用于在多回归每个变量的每一系数,但它是简单的用于差分组合试验和等价检验这样做的(即,相关性测试)。


0

使用负二项式模型而不是(鲁棒的)泊松模型来识别计数变量中的关注参数,仅仅是因为存在过度分散?

请参阅作为参考:https : //blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

泊松在固定效应情况下更强大的证据是最近才提出的,因为它被引用为:Wooldridge,JM,“某些非线性面板数据模型的无分布估计”,《计量经济学杂志》 90(1999), 77–97。


-6

以下是一些过时的情况:

  • 新柏拉图式的假设是,理论上的醚中存在一个单一的“真实”种群,该种群是永恒的,固定的和不动的,可以据此评估我们不完善的样本,这对增进学习和知识几乎没有帮助。

  • Occam的Razor等任务中固有的还原论与时代不一致。或可以概括为:“在相互竞争的假设中,应选择假设最少的假设。” 备选方案包括Epicurus的“多重解释原理”,该原理粗略地指出:“如果一个以上的理论与数据一致,则将其全部保留。”

  • 整个同行评审系统迫切需要大修。

*编辑*

  • 有了包含数千万个特征的海量数据,就不再需要变量选择阶段。

  • 另外,推论统计是没有意义的。


评论不作进一步讨论;此对话已转移至聊天
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.