为什么我们在不必线性回归时非常关心正态分布误差项(和同方差)?


52

我想每次听到有人说残差和/或异方差的非正态性违反OLS假设时,我都会感到沮丧。要估计 OLS模型中的参数,高斯-马尔可夫定理都不需要这些假设。我认为在OLS模型的假设检验中这有多重要,因为假设这些事情为我们提供了t检验,F检验和更通用的Wald统计量的简洁公式。

但是,没有它们就可以进行假设检验。如果仅去除同方差,我们可以轻松计算出健壮的标准误差和聚类标准误差。如果我们完全放弃正态性,我们可以使用自举,并为误差项,似然比和拉格朗日乘数检验指定另一个参数规范。

我们以这种方式进行授课只是一种耻辱,因为我看到很多人都在为自己不必首先遇到的假设而苦苦挣扎。

当我们有能力轻松应用更强大的技术时,为什么我们如此强调这些假设?我缺少重要的东西吗?


2
似乎是一个纪律性的事情。根据我的经验,在极端情况下,计量经济学文本几乎总是涵盖每种假设所能得出的推论,而心理学文本似乎从未提及该话题。
conjugateprior

12
但是,要使OLS呈蓝色,必须要有同质性。
Momo 2014年

4
我认为您是对的,这些假设受到了不必要的关注。正常性或有条件的同调性失败。远没有像内生性和功能指定不当那样对大多数从业者的推论目标有害。
CloseToC 2014年

2
@CloseToC这是一个很好的观点。通常,我们非常担心回归模型的统计技术性,以至于忘记了大局...我的模型是否正确指定并且是外生的?在创建任何模型时,应反复强调这是问自己的主要问题之一。
Zachary Blumenfeld 2014年

Answers:


25

在计量经济学中,我们可以说非正态违反了古典正态线性回归模型的条件,而异方差违反了CNLR和古典线性回归模型的假设。

但是那些说“ ...违反OLS”的说法也是有道理的:“ 普通最小二乘”这个名称直接来自高斯,实质上是指正常错误。换句话说,“ OLS”不是最小二乘估计的缩写(这是更通用的原理和方法),而是CNLR的缩写。

好的,这就是历史,术语和语义。我理解《任择议定书》问题的核心如下:“如果找到了不存在的情况的解决方案,为什么我们要强调理想?” (因为CNLR假设理想的,因为它们提供了“现成的”出色的最小二乘估计属性,并且无需求助于渐近结果。还请记住,当误差正常时,OLS是最大可能性)。

作为理想,这是开始教学的好地方。这是我们在教授任何类型的主题时始终要做的工作:“简单”情况是“理想”情况,没有现实生活和实际研究中实际会遇到的复杂性,也没有明确的解决方案

这就是我在OP的帖子中发现的问题:他写了一些健壮的标准错误和引导程序,好像它们是“高级替代品”,或者是针对缺少正在讨论的上述假设的万无一失的解决方案,此外,OP为其撰写了文章

“ ..人们不必见面的假设”

为什么?因为有一些处理情况的方法,这些方法固然有一定的效用,但远非理想吗?引导和异方差稳健的标准差都没有 -如果他们确实是解决方案,他们会成为主导模式,发送CLR和CNLR成为历史。但事实并非如此。

因此,我们从保证我们认为重要的估计器属性的一组假设开始(这是另一个讨论,是否指定为期望的属性确实确实是应有的属性),以便我们可以看到任何违反它们的行为都有这些后果无法通过我们发现的方法完全抵消,以应对这些假设的缺失。从科学上讲,传达“我们可以引导自己迈向问题的真相”的感觉真的很危险-因为,简单地说,我们不能。

因此,它们仍然是解决问题的不完善解决方案,而不是解决问题的替代方法和/或绝对优越的方法。因此,我们首先要教无问题的情况,然后指出可能的问题,然后讨论可能的解决方案。否则,我们会将这些解决方案提升到它们实际上没有的状态。


嗯,如果那是您的意思,您可以尝试“充分证明”。
gung-恢复莫妮卡

@gung不,不,这些方法在数学意义上是“完全证明的”,但对于它们实际提供的内容却不是万无一失的(关于渐进性的“小”细节以及它们的价值)。您的纠正是正确的。
Alecos Papadopoulos

22

如果我们有时间在课堂上首先介绍回归模型来讨论引导程序和您提到的其他技术(包括所有假设,陷阱等),那么我会同意您的看法,即不必谈论正态性和均等假设。但是实际上,当第一次引入回归时,我们没有时间谈论所有其他事情,因此我们宁愿让学生保持保守并检查可能不需要的事情,并咨询统计学家(或获取其他统计信息)。类或2或3,...),如果这些假设不成立。

如果您告诉学生这些假设除了...时无关紧要,那么大多数人只会记住无关紧要的部分,而不是重要的部分。

如果我们有一个方差不相等的情况,那么是的,我们仍然可以拟合最小二乘法线,但是它仍然是“最佳”线吗?还是最好向有更多经验/培训的人咨询在这种情况下如何适应线条。即使我们对最小二乘法线感到满意,我们是否也不应该承认预测对于不同的预测变量值将具有不同的属性?因此,检查不等方差对于以后的解释很有用,即使我们不需要在测试/间隔/等中使用它。我们正在使用。


我理解并赞赏您的发言,尤其是在时间限制方面。我在我的学校看到的是,当学生们为这些假设而挣扎时,他们通常不会或无法获得必要的咨询。因此,他们最终会在拟合模型假设的基础上选择项目,或者不恰当地使用经典模型违反假设。我认为,通过讲授更强大的技术,学生将在那里的选择方面受到更少的限制,从而有能力从事他们真正热衷的项目。
Zachary Blumenfeld 2014年

13
在教学时,您总是从理想的案例开始,然后遇到各种并发症。在博士学位级别的经济学家,他们教授各种奇怪的东西,但是要到达那里需要时间。我认为大多数人在MSc级别左右的地方下车并不是教育的问题。实际上,我会说更大的问题是半熟的“数据科学家”对害虫的侵扰,对左右应用花哨的R包的统计基础的知识几乎为零,却不知道它们在做什么和为之奋斗。理解输出。
阿克萨卡(Aksakal)2014年

@Aksakal您到底在哪里看到这些数量过多,缺乏资格的分析师?因为我经常遇到的情况几乎相反。人们害怕尝试他们学到的技术,除非首先得到公认的专家的认可。在这个网站上,我确定您已经看到许多问题,例如“我是否允许...”或“它对...有效吗?”,而更老练/更具建设性的问题是“如果……将会产生什么结果。”
rolando2

18

1)很少有人只想估算。通常,推论-CI,PI,测试-是目标,或至少是目标(即使有时是相对非正式地完成)

2)诸如高斯马尔可夫定理之类的东西不一定有太大帮助-如果分布距离正态足够远,则线性估计量就没有太大用处。如果没有线性估计量非常好,那么获取BLUE毫无意义。

3)诸如三明治估计器之类的事情涉及大量隐式参数。如果您有很多数据,可能仍然可以,但很多时候人们却没有。

4)预测间隔取决于条件分布的形状,包括对观察中的方差有很好的把握-您不能那么容易地使用PI挥舞细节。

5)引导程序之类的操作对于大样本来说通常很方便。他们有时会在小样本中挣扎-甚至在中等大小的样本中,我们经常发现实际的覆盖率属性与广告不一样。

就是说-人们希望他们成为的灵丹妙药。所有这些东西都有自己的位置,当然也有很多地方(比如说)是正常情况下并不需要,并在估计和推断(测试和独联体)能合理,而不一定需要常态,常数方差等来完成。

似乎经常被遗忘的一件事是可以替代地做出其他参数假设。人们通常对某种情况了解得足够多,可以做出相当合理的参数假设(例如,说...条件响应将倾向于右偏,而sd与均值成正比,这可能导致我们考虑使用伽马或对数正态模型);通常,这可以一次性解决异方差性和非正态性问题。

模拟是一个非常有用的工具-通过这种工具,我们可以在看起来可能来自我们数据的情况下检查工具的属性,因此,在令人欣慰的知识中使用它们(在这些情况下它们具有良好的属性)(或有时看到它们不能像我们希望的那样工作)。


“人们很少只想估计”-在公司财务和经济学中,人们估计很多,以找出某个变量的影响。我读了很多论文,在这些论文中,作者甚至没有关注置信区间,他们注意到了正常情况下的重要性。
阿克萨卡(Aksakal)

6
@Aksakal是的,是的,但是,如果他们正在关注标准误差,t值或p值等,那么据我估计,他们并不仅要估计。无论他们是否正式测试/构建时间间隔,为了使这些其他东西(无论非正式地)如何有意义,它们都必须首先具有意义。
Glen_b 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.