在线性回归分析中,我们分析异常值,研究多重共线性,检验异方差。
问题是:是否有任何适用这些命令的命令?我的意思是,我们是否必须首先分析异常值,然后检查多重共线性?还是反向?
是否有任何经验法则?
在线性回归分析中,我们分析异常值,研究多重共线性,检验异方差。
问题是:是否有任何适用这些命令的命令?我的意思是,我们是否必须首先分析异常值,然后检查多重共线性?还是反向?
是否有任何经验法则?
Answers:
这个过程是迭代的,但是有一个自然的顺序:
您必须首先担心会导致完全数字错误的条件。多重共线性是其中之一,因为它会产生不稳定的方程组,从而可能导致完全错误的答案(精确到小数点后16位...)。这里的任何问题通常意味着您必须等到固定后才能继续操作。通常使用方差膨胀因子和“帽子矩阵”的相似检查来诊断多重共线性。在此阶段的其他检查可以包括评估数据集中任何缺失值的影响并验证重要参数的可识别性。(缺少离散独立变量的组合有时会在这里引起麻烦。)
接下来,您需要考虑输出是反映大多数数据还是对一小部分敏感。在后一种情况下,您随后所做的所有其他操作都可能会误导您,因此应避免这种情况。程序包括检查异常值和影响力。(高杠杆基准可能不是异常值,但即使如此也可能会不适当地影响所有结果。)如果存在回归过程的可靠替代方案,那么现在是应用它的好时机:检查它是否产生了相似的结果,并且用它来检测离群值。
最终,在实现了数值上稳定的情况(以便您可以信任计算)并反映了完整的数据集之后,您将转向检查正确解释输出所需的统计假设。首先,这些关注点按重要性的高低顺序关注于残差的分布(包括异方差,但也扩展到对称性,分布形状,与预测值或其他变量的可能相关性以及自相关性),拟合优度(包括可能需要交互项),是否重新表达因变量以及是否重新表达自变量。
在任何阶段,如果需要纠正某些问题,那么明智的做法就是重新开始。根据需要重复多次。
我认为这取决于情况。如果您不希望遇到任何特殊问题,则可以按任何顺序检查它们。如果您期望异常值,并且在检测到异常值后可能有理由将其删除,请先检查异常值。模型的其他问题可能会在删除观察值后发生变化。之后,多协作性和异方差性之间的顺序无关紧要。我同意克里斯的观点,离群值不应任意删除。您需要有理由认为观察结果是错误的。
当然,如果您观察到多重共线性或异方差性,则可能需要更改方法。在协方差矩阵中观察到多重共线性问题,但是有特定的诊断测试可用于检测多重共线性,而其他问题(例如杠杆点)请参见Belsley,Kuh和Welsch的《回归诊断》一书或Dennis Cook的回归书之一。