为什么有些人在原始数据上测试类似回归模型的假设,而另一些人在残差上测试它们呢?


12

我是实验心理学的博士生,我努力提高自己的技能和知识,以分析数据。

在我进入心理学的五年级之前,我一直认为类似回归的模型(例如ANOVA)假设以下内容:

  • 数据的正态性
  • 数据的方差同质性等等

我的本科课程使我相信这些假设与数据有关。但是,在我五年级的时候,我的一些讲师强调了这样一个事实,即假设是关于误差(由残差估计)的,而不是原始数据。

最近,我与一些同事谈论假设问题,他们也承认,他们发现只有在大学的最后几年才检查残差假设的重要性。

如果我了解得很好,类似回归的模型将对误差做出假设。因此,检查残差的假设是有意义的。如果是这样,为什么有人检查原始数据的假设?是否因为这样的检查程序近似于我们通过检查残差而获得的结果?

我会与一些比我和我的同事更准确的知识的人就这个问题进行讨论。我在此先感谢您的回答。

Answers:


13

基本上,您处于正确的轨道。您将在因变量的正态性=残差的正态性中找到有关正态性方面的讨论

经典线性模型的一些假设确实与误差有关(使用残差作为它们的实现):

  • 它们是不相关的吗?(与OLS估计量的推论和最优性有关)
  • 他们有相等的方差吗?(与OLS估计量的推论和最优性有关)
  • 它们是否以0为中心?(获得无偏估计和预测的关键假设)
  • 如果样本很小:它们是正态分布还是至少对称分布?(与推断有关)

其他条件与“原始数据”有关:

  • 回归器中没有异常值吗?(高杠杆率观察可能会破坏整个模型)
  • 没有完美的多重共线性吗?(至少在某些软件包中会引起计算问题)

现在,您的本科生老师也可能是正确的:

  • 也许您专注于单变量t检验等单变量检验。那里的假设是关于原始数据的。
  • 如果相当低,并且响应变量看起来除正常值之外的所有内容,那么对于残差而言,同样也很可能成立。R2
  • 您如何根据原始数据检查同方差等?也许您误会了他或她。

好的,非常感谢您的回答以及非常有用的链接。我和我的一些同事直到最近才相信原始数据应该具有相同的方差。如您所说,我们可能错过了我们的课程。在某些书中,我们可以阅读以下内容:
Psychokwak

“大多数常见的统计程序都做出与该主题相关的两个假设:(a)变量(或更确切地说,它们的误差项是正态分布的)假设,以及(b)方差相等(均等或同质)的假设”,表示变量的方差在某些其他变量的观察范围内保持恒定。” 这是否意味着当人们谈论“变量”时,他或她就系统地谈论“其错误项”吗?如果是这样,我可以接受,但没有明确提及,这远非显而易见(至少对我而言)。
Psychokwak

最后,关于您的答案,我还有最后一个问题。如果t检验和方差分析是回归的特殊情况,为什么假设是关于一样本t检验中的数据的呢?再次感谢您提供有用的答案。
Psychokwak

1
回答您的最后评论:单样本t检验也可以视为回归的特殊情况。该模型仅由截距(= mean)和误差项组成,即响应为偏移误差。由于移位对于任何假设都无关紧要,因此谈论数据或残差等效。
Michael M

4

我发现残差和原始数据之间的区别无济于事,因为两者都更多地参考了您的实际样本,而不是基础人口分布。最好将某些需求视为“组内需求”,而将其他需求视为“组假设之间”。

例如,方差均一性是“组间假设”,因为它说组内方差对于所有组都是相同的。

正态性是“组内”假设,它要求在每个组中y均呈正态分布。

请注意,在整个原始数据上保持常态通常意味着您没有任何效果-查看性别分布而不区分男女。由于强烈的性别效应,它不会正态分布。但在每个性别中,它都保持良好状态。


1
也感谢您的回答。这是查看问题的一种有趣方式。我从来没有以这样的方式考虑正态性(即“对整个原始y具有正态性通常意味着[我们]没有任何作用”)。
Psychokwak
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.