您应该按什么顺序进行线性回归诊断?


24

在线性回归分析中,我们分析异常值,研究多重共线性,检验异方差。

问题是:是否有任何适用这些命令的命令?我的意思是,我们是否必须首先分析异常值,然后检查多重共线性?还是反向?

是否有任何经验法则?


2
一些非常粗略的经验法则:在进行任何拟合之前,应研究共线性。如果发现它存在,则应该(a)使用处理共线性的方法,(b)删除共线性特征,或者(c)变换特征(例如使用PCA)。拟合模型后,可以在残差中寻找异方差。通常,如果要建立预测模型,则不应删除异常值。相反,请使用对异常值存在鲁棒性的方法。
克里斯·泰勒

1
如何最好地研究共线性?在看预测变量相关矩阵的非对角线元素吗?
miura 2012年

1
研究共线性的最佳方法是条件指数和方差解释。高相关性既不是共线性的必要条件,也不是充分条件。
彼得·弗洛姆

Answers:


28

这个过程是迭代的,但是有一个自然的顺序:

  1. 您必须首先担心会导致完全数字错误的条件。多重共线性是其中之一,因为它会产生不稳定的方程组,从而可能导致完全错误的答案(精确到小数点后16位...)。这里的任何问题通常意味着您必须等到固定后才能继续操作。通常使用方差膨胀因子和“帽子矩阵”的相似检查来诊断多重共线性。在此阶段的其他检查可以包括评估数据集中任何缺失值的影响并验证重要参数的可识别性。(缺少离散独立变量的组合有时会在这里引起麻烦。)

  2. 接下来,您需要考虑输出是反映大多数数据还是对一小部分敏感。在后一种情况下,您随后所做的所有其他操作都可能会误导您,因此应避免这种情况。程序包括检查异常值和影响力。(高杠杆基准可能不是异常值,但即使如此也可能会不适当地影响所有结果。)如果存在回归过程的可靠替代方案,那么现在是应用它的好时机:检查它是否产生了相似的结果,并且用它来检测离群值。

  3. 最终,在实现了数值上稳定的情况(以便您可以信任计算)并反映了完整的数据集之后,您将转向检查正确解释输出所需的统计假设。首先,这些关注点按重要性的高低顺序关注于残差的分布(包括异方差,但也扩展到对称性,分布形状,与预测值或其他变量的可能相关性以及自相关性),拟合优度(包括可能需要交互项),是否重新表达因变量以及是否重新表达自变量。

在任何阶段,如果需要纠正某些问题,那么明智的做法就是重新开始。根据需要重复多次。


2
我实际上更喜欢使用条件索引而不是VIF。不久前,我在论文上做了我的论文。
彼得·弗洛姆

1
@Peter好点。我也更喜欢条件索引,但在我看来VIF现在非常流行。
ub

更糟糕的是,我今天早些时候从您的评论中跟了上来。在我的博士后期间,我曾经咨询过统计学家有关多重共线性的一些问题。他认为,根据回归中IV的性质,共线性可以被认为是所建模现象的结构性一部分。我可能正在修改他的精确语言,我不得不挖掘甚至重新找到他的名字,但是您是否知道有任何文本会激发人们沿着这些思路对多重共线性进行细微的推理?只是一个偶然的问题。:)
Alexis

@Alexis听起来好像统计学家有着多重共线性的细微差别和复杂概念。我想不出任何能清楚表达它的教科书。
ub

我只需要追踪他并询问他。:)
Alexis

3

我认为这取决于情况。如果您不希望遇到任何特殊问题,则可以按任何顺序检查它们。如果您期望异常值,并且在检测到异常值后可能有理由将其删除,请先检查异常值。模型的其他问题可能会在删除观察值后发生变化。之后,多协作性和异方差性之间的顺序无关紧要。我同意克里斯的观点,离群值不应任意删除。您需要有理由认为观察结果是错误的。

当然,如果您观察到多重共线性或异方差性,则可能需要更改方法。在协方差矩阵中观察到多重共线性问题,但是有特定的诊断测试可用于检测多重共线性,而其他问题(例如杠杆点)请参见Belsley,Kuh和Welsch的《回归诊断》一书或Dennis Cook的回归书之一


9
迈克尔,将来,您可以使用格式选项吗?(插入链接的正确键是ctrl-1,而不是ctrl-c)。
user603 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.