残差对拟合值的对角直线作多元回归


11

我正在观察数据残差的奇怪模式: 在此处输入图片说明

[编辑]这是两个变量的部分回归图:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2]添加了PP图 http://i.imgur.com/pCKFA.png

分布似乎运行良好(请参阅下文),但是我不知道这条直线可能来自何处。有任何想法吗? 在此处输入图片说明

[UPDATE 31.07]

事实证明您是绝对正确的,我的案例中转发次数确实为0,而这〜15个案例导致了这些奇怪的残留模式。

现在,残差看起来好多了: http://i.imgur.com/XGas9.png

我还用黄土线包括了部分回归。 http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png


您还能添加绘制在原始数据上的拟合线吗?
MånsT

而且,图中的字幕说:“社区:动漫”和“社区:占星术”,这似乎意味着,这些地块都来自不同的数据集...
MånsT

我记得当我的因变量是分类变量或“不够连续”时,在残差中看到了这种类型的模式。
国王

我添加了正确的PP图和两个IV的局部图
plotti 2012年

Answers:


23

似乎在某些子范围上,因变量是恒定的,或者正好线性地依赖于预测变量。我们有两个相关变量X和Y(Y是因变量)。散点图在左侧。

在此处输入图片说明

例如,让我们返回第一种(“常数”)可能性。将所有Y值从最低的-0.5重新编码为单个值-1(请参见中间的图片)。在X上回归Y并绘制残差散点图,即旋转中心图片以使预测线现在处于水平状态。它像你的照片吗?


6
那是最好的法医统计!大+1。
Michael R. Chernick

事实证明您是绝对正确的,我的案例中转发次数确实为0,而这15例案例导致了这些奇怪的残留模式。 i.imgur.com/XGas9.png
plotti 2012年

4

您不会在直方图中看到模式也就不足为奇了,奇数模式跨越了直方图范围的相当一部分,并且在每个bin中仅代表了几个数据点。您确实需要找出那些数据点并进行查看。您可以使用预测值和残差足够容易地找到它们。一旦找到值,就开始调查为什么这些值可能很特殊。

话虽如此,这种特殊的模式仅是特殊的,因为它很长。如果仔细查看残差图和分位数图,您会看到它重复出现,但是序列较小。也许这真的只是一个异常。也许这确实是重复的模式。但是,您将必须找到原始数据中的位置并对其进行检查,以完全希望了解它。

为了给您一些帮助,分位数-分位数图建议您有一堆相同的残差。可能是编码错误。我可以用...生成R中的类似内容

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

注意该行中的两个平坦点。但是,这似乎比这更复杂,因为暗示着相同的残差正跨越一系列预测变量。


3

看来您正在使用R。如果是这样,请注意,您可以使用?identify识别散点图上的点。我认为这里发生了几件事。首先,您在LN_RT_vol_in ~ LN_AT_vol_in(突出显示的)绘图上有一个非常有影响力的点,约为(.2,1.5)。这很可能是约-3.7的标准化残差。该点的作用是使回归线变平,使其比您原本可以得到的急剧向上的线更水平地倾斜。这样的效果是,所有残差将相对于原本应位于残差内的位置逆时针旋转。residual ~ predicted图中的(至少在考虑该协变量而忽略另一个变量时)。

尽管如此,您看到的残差的明显直线仍将存在,因为它们存在于原始数据的3维云中。在任一边际图中都可能很难找到它们。您可以使用identify()函数提供帮助,也可以使用 rgl包来创建动态3D散点图,您可以使用鼠标自由旋转。但是,请注意,直线残差的预测值均低于0,且残差低于0(即,它们均位于拟合回归线以下)。这给您一个在哪里寻找的重要提示。再次查看您的情节LN_RT_vol_in ~ LN_AT_vol_in,我想我可能会看到他们。在该区域中点云的下边缘,大约(-.01,-1.00)处有一个相当笔直的点对角线,沿着对角线向下和向左延伸。我怀疑这些就是要点。

换句话说,残差看起来像那样,因为它们已经在数据空间中的某个地方了。从本质上讲,这就是@ttnphns的建议,但我认为在任何原始尺寸中它都不是一个常数,它是与原始轴成一定角度的尺寸中的一个常数。我进一步同意@MichaelChernick的观点,残差图中的这种明显的直线度可能是无害的,但是您的数据并不是很正常。但是,它们多少有些正常,并且您似乎有相当数量的数据,所以CLT可能会覆盖您,但您可能需要进行引导以防万一。最后,我担心“异常值”会驱动您的结果;一个可靠的方法可能是值得的。


1
您的陈述能否it's a constant in a dimension at an angle to your original axes与我的陈述相提并论is exactly linearly dependent on the predictor(s),或者您的意思有所不同?
ttnphns

@ttnphns,当我略读时,我错过了您的部分答案;我看到了“常数”并看到了情节中的要点,这就是我的观点。是的,“它在一个维度中是一个常量...”在逻辑上与“完全线性相关...”同义。我现在意识到我的核心观点与您的基本观点相同(+1),尽管我认为我的其他一些观点(这些数据可能是罪魁祸首,R策略,稳健的方法等)仍然为讨论做出了贡献。
gung-恢复莫妮卡

当然,您的回答对我有很大帮助。
ttnphns

1

我不一定会说直方图还可以。视觉上将最合适的法线叠加在直方图上可能具有欺骗性,并且您的组织技巧可能对箱宽度的选择敏感。正常概率图似乎表明与正常值有很大的差异,甚至在直方图中,我的眼中似乎有些偏斜([0,+ 0.5]分箱中的频率高于[-0.5,0]分箱中的频率)和严重峰度(在[-4,-3.5]和[2.5,3]间隔内频率过大)。

关于模式,您看到的可能是通过散点图的选择性探索。看起来,如果您狩猎更多,则可能会发现另外两到三行几乎与您选择的那一行平行。我认为您对此读得太多了。但是,非正常性是一个真正的问题。您有一个非常大的离群值,其残差接近-4。这些残差是否来自最小二乘拟合?我同意,在数据散点图中查看拟合线可能会很有启发。


我添加了两个IV的部分图,以进一步阐明这一点
plotti 2012年

1
我想看到最基本的东西,拟合线贯穿数据的散点图。
Michael R. Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.