如果残差不均等会怎样?如果残差在残差与拟合图中显示出增加或减少的模式。
如果误差项不是均等的(我们将残差用作不可观察误差项的替代),则OLS估计量仍然是一致且无偏的,但在线性估计量类别中不再是最有效的。现在正是使用此属性的GLS估算器。
如果残差不是正态分布并且未通过Shapiro-Wilk检验,会发生什么?Shapiro-Wilk正态性检验是一个非常严格的检验,有时,即使Normal-QQ图看起来有些合理,数据也无法通过检验。
高斯-马尔可夫定理不需要正态性。OLS估计量仍然是蓝色,但是如果没有正态性,至少对于有限的样本量,您将难以进行推理,即假设检验和置信区间。但是,仍然存在引导程序。
渐近地,这没有什么问题,因为OLS估计量在适度规则性条件下具有有限的正态分布。
如果一个或多个预测变量不是正态分布,在正态QQ图上看起来不正确,或者数据未通过Shapiro-Wilk检验,该怎么办?
据我所知,预测变量要么被认为是固定的,要么以回归为条件。这限制了非正态的影响。
未能通过正态性意味着对于根据R-Squared值而言非常合适的模型。它变得不那么可靠,还是完全没有用?
R平方是模型解释的方差的比例。它不需要正态性假设,并且可以用来衡量拟合优度。如果您想将其用于部分F检验,那就完全不一样了。
偏差在多大程度上可以接受,或者完全可以接受?
你是说偏离正常,对吗?它确实取决于您的目的,因为正如我所说,在没有正常性的情况下推理会变得很困难,但并非不可能(引导!)。
当对数据应用转换以满足正态性标准时,如果数据更正常(Shapiro-Wilk测试中的P值较高,正常QQ图上的外观更好),或者该模型无用(等效值或比原始版本差),直到数据通过正常性测试?
简而言之,如果您具有所有的高斯-马尔可夫假设和正态性,那么OLS估计量就是最佳无偏(BUE),即在所有估计量类别中效率最高的是Cramer-Rao下界。这当然是可取的,但如果不发生,那不是世界末日。以上说明适用。
关于转换,请记住,尽管响应的分布可能更接近常态,但之后的解释可能并不简单。
这些只是您问题的一些简短答案。您似乎特别关注非正常的含义。总体而言,我要说的是,它不像人们(已经做到?)所相信的那样灾难性,并且有解决方法。我包括的两个参考文献是进一步阅读的一个很好的起点,第一个是理论性的。
参考文献:
林夫雄 :“计量经济学”,普林斯顿大学出版社,2000年
Kutner,Michael H.,等。“应用的线性统计模型。”,McGraw-Hill Irwin,2005年。