因变量的正态性=残差的正态性?


34

这个问题似乎一直在抬头,我出于我对统计(和理智!)的理解而试图将其斩首。

一般线性模型的假设(t检验,ANOVA,回归等)包括“正态性假设”,但我发现很少对此进行清楚地描述。

我经常碰到统计教科书/手册等,只是简单地指出“正态性假设”适用于每个(即X类分类变量),我们应该检查每个组与正态性的背离。

问题

  1. 假设是指Y 的还是Y的残差

  2. 对于特定的,是否可能具有强烈的Y 非正态分布(例如,偏斜),但是Y 残差的近似(或更正态分布)呢?

    其他资料表明,该假设与模型的残差有关(在存在组的情况下,例如t检验/ ANOVA),我们应该检查这些残差的正态性偏离(即,只有一个QQ图/检验与跑)。

  3. 不残差的正态模型意味着残差的正态群体?换句话说,我们是否应该仅检查模型残差(与许多文本中的说明相反)?

    为了说明这一点,请考虑以下假设示例:

    • 我想比较两个种群(X)之间的树高(Y)。
    • 在一个种群中,Y的分布强烈向右偏斜(即,大多数树短而高的树很少),而另一种实际上是正常的
    • 总体而言,身高在正态分布的人群中较高(建议可能存在“实际”差异)。
    • 数据转换并不能大大改善第一批人口的分布。
  4. 首先,比较完全不同的高度分布的组是否有效?

  5. 我在这里如何处理“正常性假设”?一个人群的召回身高不是正态分布。难道我检查残差两个群体单独或残差的模型(t检验)?


请在答复中按数字提及问题,经验表明我很容易迷路或迷路(尤其是我!)。请记住,我不是统计学家。尽管我对统计数据有一个合理的概念(即非技术性!)理解。

PS,我已经搜索了档案并阅读了以下没有巩固我的理解的主题:


2
问题1)假设是指Y的值还是Y的残差? ” –严格来说,两者都不是,尽管第二个是您要检查的东西。假定正态是无法观察到的误差,或者等效地是每个预测变量组合处Y 的条件分布。Y的无条件分布不假定为正态。
Glen_b-恢复莫妮卡

1
+1感谢您为组织和合并发生此问题的(许多)线程而付出的努力;这绝对是一个常见问题解答。
ub

我要感谢你提出这个问题。它要解决的主题以及组织和链接的方式都很好。我知道您很久以前问过这个问题,但这只是一个很好的问题!

Answers:


14

有一点可以帮助您理解:

如果是正态分布且ab是常数,则y = x axab也呈正态分布(但均值和方差可能不同)。y=xab

由于残差只是y值减去估计的平均值(标准化残差也除以标准误差的估计值),因此,如果y值呈正态分布,则残差也是如此,反之亦然。因此,当我们讨论理论或假设时,我们讨论的内容无关紧要,因为一个暗示另一个。

因此,对于以下问题,它导致:

  1. 是的,两者都
  2. 不,(但是,单独的y值将以不同的方式来自法线,如果将它们组合在一起,它们可能看起来不正常)
  3. 残差的正态性表示组的正态性,但是在某些情况下按组检查残差或y值(合并可能会掩盖组中明显的非正态性),或者在其他情况下将所有特征一起查看(观察不足)可能会更好每个小组来确定,但所有这些都可以告诉您)。
  4. 这取决于您进行比较的意思,样本量的大小以及您对“近似”的感觉。仅对结果进行测试/间隔时才需要正态性假设,您可以拟合模型并描述点估计是否存在正态性。中心极限定理说,如果样本量足够大,则即使残差不大,估计值也将大致正常。
  5. 这取决于您要回答的问题以及您对“满意”程度的程度。

要理解的另一点很重要(但通常在学习中会混淆),这里有两种残差:理论残差是观测值与真实理论模型之间的差异,而观测残差是差异在观测值和当前拟合模型的估计值之间。我们假设理论残差为正态。观察到的残差不是i,i或分布正态(但平均值为0)。但是,出于实际目的,观察到的残差确实会估计理论残差,因此仍可用于诊断。


有关误差和残差的更多信息,我认为在wiki en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster '16

1
yy^

yy^

在Q1上(这在Q2的答案中得到肯定):显然,这是残差而不是Y。当观察之间的协变量不同时,即使残差是正态的,您也很容易获得双峰边际分布。因此,不能简单地看Y,而只能看残差。
比约恩

@Bjorn,这是一个很好的说明。y变量是正常的,以x为条件,因此原始y值是法线的混合,并且即使y值的图符合假设为x的正常条件,也可能不会显示正态性。对于诊断,我们通常使用残差(因为条件部分已被删除)。(条件)正态性的假设是指理论残差和y值。
格雷格·斯诺

7

简短的答案:

  1. 残差
  2. 没有
  3. 取决于,两种方法各有优缺点
  4. 为什么不?比较中位数而不是均值可能更有意义。
  5. 从您告诉我们的内容来看,正态性假设可能已被违反

更长的答案:

假定因变量(y)是正态分布的,对于不同的组具有不同的均值。结果,如果仅绘制y的分布图,它看起来就很容易与标准钟形正态曲线大不相同。残差表示y的分布,均值的那些差异被“滤除”。

另外,您可以分别查看每个组中y的分布。这也可以过滤出各组之间均值的差异。这样做的好处是,您还可以获取有关每个组中分布的信息,在您看来,这是相关的。缺点是每个组所包含的观察值少于查看残差时所获得的组合数据集。此外,如果您有多个组,则将无法有意义地比较组,例如,因为您在模型中输入了许多预测变量,或在模型中输入了(准)连续预测变量。因此,如果您的模型仅包含一个分类预测变量,并且每个组中的观察数足够大,那么分别检查每个组中y的分布可能很有意义。


7
严格来说,残差只是未知和不可知的错误或干扰的估计,因此即使正态性原则上正确,实践中也无法获得完全正常的残差。更重要的是,在这些方法中,错误的正态性是最不重要的假设!
尼克·考克斯

@NickCox(+1)在两个方面都达成了一致
Maarten Buis

1

YX
XY


eYϵX
YY|XN(Xβ,σ2)
XYY|X


YX

问题3)
使用需要正态性的线性模型的重要之处在于,非正态残差(无论是否在一组中)是表明模型可能不适合数据的重要指标。
如果您要进行方差分析,那么您的总体残差不必一定是正常的(或等方的),那是没有道理的。但是,在回归中,最好有一个最终带有整体法线残差的模型。否则,您的间隔估计器和测试将是错误的。这可能是某些自相关或缺少变量偏差的情况。如果模型是100%正确的(必要时可能包括结构性断裂和权重),则假定正常误差项(甚至以0​​为中心)并不遥不可及。实际上,问题通常变为:如果样本能够使我们摆脱这些问题够大吗?没有明确的答案,但对于100%正确的方法,是的,所有残差均应为正常值。

问题4和5)
这取决于您通过比较的意思。给定正常误差项的假设,您可以基于两个不同分布的假设进行测试。您还可以使用GLS估计进行回归以说明不同的分布参数-如果您具有正确的模型...而我想您的小组本身就是指标/二元变量吗?
这样一来,很难推断出残差的分布将是正态的-结果是,尽管您可以处理数据,但不会基于常规OLS。
但这取决于您要如何处理数据。


Y|X

我认为一种好的方法是研究常规OLS的代数,并着重于结果的分布。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.