我正在观察数据残差的奇怪模式:
[编辑]这是两个变量的部分回归图:
[EDIT2]添加了PP图
分布似乎运行良好(请参阅下文),但是我不知道这条直线可能来自何处。有任何想法吗?
[UPDATE 31.07]
事实证明您是绝对正确的,我的案例中转发次数确实为0,而这〜15个案例导致了这些奇怪的残留模式。
现在,残差看起来好多了:
我还用黄土线包括了部分回归。
我正在观察数据残差的奇怪模式:
[编辑]这是两个变量的部分回归图:
[EDIT2]添加了PP图
分布似乎运行良好(请参阅下文),但是我不知道这条直线可能来自何处。有任何想法吗?
[UPDATE 31.07]
事实证明您是绝对正确的,我的案例中转发次数确实为0,而这〜15个案例导致了这些奇怪的残留模式。
现在,残差看起来好多了:
我还用黄土线包括了部分回归。
Answers:
似乎在某些子范围上,因变量是恒定的,或者正好线性地依赖于预测变量。我们有两个相关变量X和Y(Y是因变量)。散点图在左侧。
例如,让我们返回第一种(“常数”)可能性。将所有Y值从最低的-0.5重新编码为单个值-1(请参见中间的图片)。在X上回归Y并绘制残差散点图,即旋转中心图片以使预测线现在处于水平状态。它像你的照片吗?
您不会在直方图中看到模式也就不足为奇了,奇数模式跨越了直方图范围的相当一部分,并且在每个bin中仅代表了几个数据点。您确实需要找出那些数据点并进行查看。您可以使用预测值和残差足够容易地找到它们。一旦找到值,就开始调查为什么这些值可能很特殊。
话虽如此,这种特殊的模式仅是特殊的,因为它很长。如果仔细查看残差图和分位数图,您会看到它重复出现,但是序列较小。也许这真的只是一个异常。也许这确实是重复的模式。但是,您将必须找到原始数据中的位置并对其进行检查,以完全希望了解它。
为了给您一些帮助,分位数-分位数图建议您有一堆相同的残差。可能是编码错误。我可以用...生成R中的类似内容
x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)
注意该行中的两个平坦点。但是,这似乎比这更复杂,因为暗示着相同的残差正跨越一系列预测变量。
看来您正在使用R
。如果是这样,请注意,您可以使用?identify识别散点图上的点。我认为这里发生了几件事。首先,您在LN_RT_vol_in ~ LN_AT_vol_in
(突出显示的)绘图上有一个非常有影响力的点,约为(.2,1.5)。这很可能是约-3.7的标准化残差。该点的作用是使回归线变平,使其比您原本可以得到的急剧向上的线更水平地倾斜。这样的效果是,所有残差将相对于原本应位于残差内的位置逆时针旋转。residual ~ predicted
图中的(至少在考虑该协变量而忽略另一个变量时)。
尽管如此,您看到的残差的明显直线仍将存在,因为它们存在于原始数据的3维云中。在任一边际图中都可能很难找到它们。您可以使用identify()函数提供帮助,也可以使用 rgl包来创建动态3D散点图,您可以使用鼠标自由旋转。但是,请注意,直线残差的预测值均低于0,且残差低于0(即,它们均位于拟合回归线以下)。这给您一个在哪里寻找的重要提示。再次查看您的情节LN_RT_vol_in ~ LN_AT_vol_in
,我想我可能会看到他们。在该区域中点云的下边缘,大约(-.01,-1.00)处有一个相当笔直的点对角线,沿着对角线向下和向左延伸。我怀疑这些就是要点。
换句话说,残差看起来像那样,因为它们已经在数据空间中的某个地方了。从本质上讲,这就是@ttnphns的建议,但我认为在任何原始尺寸中它都不是一个常数,它是与原始轴成一定角度的尺寸中的一个常数。我进一步同意@MichaelChernick的观点,残差图中的这种明显的直线度可能是无害的,但是您的数据并不是很正常。但是,它们多少有些正常,并且您似乎有相当数量的数据,所以CLT可能会覆盖您,但您可能需要进行引导以防万一。最后,我担心“异常值”会驱动您的结果;一个可靠的方法可能是值得的。
it's a constant in a dimension at an angle to your original axes
与我的陈述相提并论is exactly linearly dependent on the predictor(s)
,或者您的意思有所不同?
我不一定会说直方图还可以。视觉上将最合适的法线叠加在直方图上可能具有欺骗性,并且您的组织技巧可能对箱宽度的选择敏感。正常概率图似乎表明与正常值有很大的差异,甚至在直方图中,我的眼中似乎有些偏斜([0,+ 0.5]分箱中的频率高于[-0.5,0]分箱中的频率)和严重峰度(在[-4,-3.5]和[2.5,3]间隔内频率过大)。
关于模式,您看到的可能是通过散点图的选择性探索。看起来,如果您狩猎更多,则可能会发现另外两到三行几乎与您选择的那一行平行。我认为您对此读得太多了。但是,非正常性是一个真正的问题。您有一个非常大的离群值,其残差接近-4。这些残差是否来自最小二乘拟合?我同意,在数据散点图中查看拟合线可能会很有启发。