我之所以这样问,是因为内部学生化残差似乎与原始估计残差具有相同的模式。如果有人可以提供解释,那就太好了。
我之所以这样问,是因为内部学生化残差似乎与原始估计残差具有相同的模式。如果有人可以提供解释,那就太好了。
Answers:
假设回归模型与设计矩阵(一个柱,然后通过您的预测),预测(其中是“帽子矩阵”)和残差。回归模型假设真实误差均具有相同的方差(纯正方差):
残差的协方差矩阵为。这意味着原始残差具有不同的方差 -矩阵。的对角元素是帽值。
因此,始终具有方差1的真正标准化残差为。问题在于误差方差是未知的,并且内部/外部学习的残差是由估算的特定选择得出的。
由于即使是同方差的,原始残差也被认为是异方差的,因此与标准残差或学生化残差相比,从理论上讲,这些原始残差不适合用于诊断同方差假设的问题。
您对测试图进行了哪些类型的数据处理?当所有的假设都成立(或接近)时,我不会期望原始残差和学生残差之间有很大的差异,主要的优势是当影响点很大时。考虑以下(模拟的)数据,该数据具有正的线性趋势和极具影响力的离群值:
这是拟合值与原始残差的关系图:
请注意,影响点残差的值比其余点的最小残差和最大残差更接近0(这不在3个最极端的原始残差中)。
现在这是带有标准化(内部学习)残差的图:
在该图中,标准化残差突出,因为考虑了其影响。
在这个简单的示例中,很容易看到发生了什么,但是如果我们有多个1变量并且一个非常有影响力的点,但在二维图中并不罕见,该怎么办?从原始残差图上不会很明显,但是学生化残差将显示残差更为极端。