在诊断潜在的有影响力的数据点方面,“内部学习的残差”相对于原始的估计残差有什么优势?


10

我之所以这样问,是因为内部学生化残差似乎与原始估计残差具有相同的模式。如果有人可以提供解释,那就太好了。

Answers:


13

假设回归模型与设计矩阵(一个柱,然后通过您的预测),预测(其中是“帽子矩阵”)和残差。回归模型假设真实误差均具有相同的方差(纯正方差):y=Xβ+ϵX1y^=X(XX)1Xy=HyHe=yy^ϵ

同方性

残差的协方差矩阵为。这意味着原始残差具有不同的方差 -矩阵。的对角元素是帽值。V(e)=σ2(IH)eiσ2(1hii)σ2(IH)Hhii

因此,始终具有方差1的真正标准化残差为。问题在于误差方差是未知的,并且内部/外部学习的残差是由估算的特定选择得出的。e/(σ1hii)σ e/(σ^1hii)σ^

由于即使是同方差的,原始残差也被认为是异方差的,因此与标准残差或学生化残差相比,从理论上讲,这些原始残差不适合用于诊断同方差假设的问题。ϵ


我清楚两种不同类型的残差(以及外部学生化残差)之间的定义差异。但是,实际上,我认为我没有遇到过(至少使用我自己的数据)内部学习的残差与估计的残差相比有不同模式的情况。另一方面,外部学生化的残差可能与估计的残差表现出不同的模式。*我并不是说两种残差是相同的。我指的是它们的一般模式。

@AlexH。我同意我所说的优点是理论上的。构建原始残差具有误导性并且学生化残差提供条件分布更准确图景的模拟经验情况将是一个很好的补充。
caracal 2012年

12

您对测试图进行了哪些类型的数据处理?当所有的假设都成立(或接近)时,我不会期望原始残差和学生残差之间有很大的差异,主要的优势是当影响点很大时。考虑以下(模拟的)数据,该数据具有正的线性趋势和极具影响力的离群值:

在此处输入图片说明

这是拟合值与原始残差的关系图:

在此处输入图片说明

请注意,影响点残差的值比其余点的最小残差和最大残差更接近0(这不在3个最极端的原始残差中)。

现在这是带有标准化(内部学习)残差的图:

在此处输入图片说明

在该图中,标准化残差突出,因为考虑了其影响。

在这个简单的示例中,很容易看到发生了什么,但是如果我们有多个1变量并且一个非常有影响力的点,但在二维图中并不罕见,该怎么办?从原始残差图上不会很明显,但是学生化残差将显示残差更为极端。x

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.