多元回归的假设:正态性假设与恒定方差假设有何不同?


20

我读到这些是使用多元回归模型的条件:

  1. 模型的残差几乎是正常的,
  2. 残差的变异性几乎恒定
  3. 残差是独立的,并且
  4. 每个变量都与结果线性相关。

1和2有何不同?

您可以在这里看到一个:

在此处输入图片说明

因此,上图表明,相距2个标准差的残差与Y帽相距10个。这意味着残差遵循正态分布。您不能从中推断出2吗?残差的变异性几乎恒定吗?


7
我认为这些顺序是错误的。按照重要性的顺序,我想说的是4、3、2、1。这样,每个附加假设都可以使用该模型来解决更大的问题集,而不是问题中顺序最严格的假设首先。
马修·德鲁里

2
这些假设是推论统计所必需的。没有假设要使平方误差的总和最小化。
David Lane

1
我相信我的意思是1、3、2、4。至少要满足1才能使该模型对所有功能都有用,要使该模型保持一致,就需要3,即在获得更多数据时收敛到稳定的状态,需要2才能使估计高效,即,没有其他更好的方法可以使用数据来估计同一条线,并且至少需要4来对估计的参数进行假设检验。
马修·德鲁里

3
强制链接到A. Gelman的博客文章,线性回归的主要假设是什么?
usεr11852恢复单胞菌说,

2
如果不是您自己的工作,请提供图表的来源。
尼克·考克斯

Answers:


44

1. 残差的正态分布

当您尝试获取置信区间和/或p值时,正常条件起作用。

不是高斯马尔可夫状态ε|Xñ0σ2一世ñ


在此处输入图片说明

该图试图以蓝色(人口回归线为纯青色线)说明总体中点的分布,并以大的黄色点叠加在样本数据集上(其估计的回归线绘制为虚线黄线)。显然,这仅适用于概念消耗,因为每个值都会有无穷大点-因此,这是回归概念的图形化图示离散化,即均值周围的连续值分布(对应于预测值)变量的每个给定值处的“独立”变量的值)或解释变量。X=X

如果我们在模拟的“人口”数据上运行诊断性R图,则会得到...

在此处输入图片说明

残差的方差沿X的所有值恒定X

典型的情节是:

在此处输入图片说明


从概念上讲,引入多个回归变量或解释变量不会改变这个想法。我发现该程序包的动手教程对于swirl()理解多元回归实际上是使因变量相互回归的过程非常有用,可以使模型中残留的,无法解释的变化继续下去。或更简单地说,是简单线性回归的矢量形式

通用技术是选择一个回归变量,然后将所有其他变量替换为其相对于该变量的回归残差。


2. 残差的变异性几乎恒定(同方差)

Ë[ε一世2|X]=σ2

违反此条件问题是:

异方差对OLS估计量有严重影响。尽管OLS估算器保持不变,但估算的SE是错误的。因此,不能依赖置信区间和假设检验。此外,OLS估算器不再是蓝色。


在此处输入图片说明

在此图中,方差随回归变量(解释变量)的值而增加,而不是保持不变。在这种情况下,残差是正态分布的,但是该正态分布的方差随解释变量而变化(增加)。

请注意,在第一个图中(纯深蓝色),在同方差下,“真实”(种群)回归线相对于种群回归线没有变化,但是从直观上看,估计将更加不确定。

数据集上的诊断图为...

在此处输入图片说明

对应于“重尾”分布,这是有道理的,因为我们要将所有“并排”的垂直高斯图伸缩成一个单一的图,该图将保持其钟形,但尾巴很长。


@Glen_b“ ...完整地涵盖了两者之间的区别,也将考虑是同方的,但不是正常的。”

在此处输入图片说明

残差高度偏斜,并且方差随解释变量的值而增加。

这些将是诊断图...

在此处输入图片说明

对应于明显的右偏斜度。

为了闭合循环,我们还将在具有非高斯误差分布的同方模型中看到偏斜度:

在此处输入图片说明

诊断图为...

在此处输入图片说明


2
非常感谢你。我认为有必要弥合用作可视化工具的人口的总体离散化。我可能会发布代码,但由于存在一定程度的创造性数学,我很犹豫:-)
Antoni Parellada

3
通过显示同时满足正态误差和同态误差的图,然后再显示正态而非同态的方差,可以很好地说明正态误差和同等误差之间的区别。我猜想完整地涵盖两者之间的区别也会考虑同方,但不是正常的。[我不建议您添加这样的插图,但这是使人们在考虑这些假设时牢记于心的有用的第三臂。]
Glen_b-恢复莫妮卡

7

这不是OP的错,但是我开始厌倦了阅读这样的错误信息。

我读到这些是使用多元回归模型的条件:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

“多元回归模型”只是一个标签,它声明一个变量可以表示为其他变量的函数。

真正的误差项和模型的残差都几乎不需要特别大的东西-如果残差看起来很正常,则对随后的统计推断很有用。

误差项的变异性(variance)不必几乎是恒定的-如果不是,则我们有一个具有异方差性的模型,如今该模型很容易处理。

残差在任何情况下都不是独立的,因为每个残差都是整个样本的函数。在真正的误差项 -如果他们不是我们与自相关性,这虽然比异更难,最多可与一个程度来处理的模型不一定是独立的。

每个变量不必与结果线性相关。实际上,“线性”回归与“非线性”回归之间的区别与变量之间的关系无关,而与未知系数如何进入关系无关。

可以说的是,如果正确地说明了前三个保持式和第四个保持式,那么我们将获得“古典正态线性回归模型”,它只是多元回归模型的一个(尽管历史上是第一个)变体。


3
XβXβX

2
而且这个问题缺少绝对基础的假设,即误差项的条件期望为零!
马修·冈恩

1
@MatthewGunn嗯,...这引发了关于我们对该模型所做的大量讨论:如果我们采取“确定性/工程”观点,则需要此假设以确保规范确实是在确定性之上。如果我们要针对特定回归变量估计条件期望函数,则自动满足条件(或至少满足其较弱的形式,即正交性)。
Alecos Papadopoulos'5

1
@AlecosPapadopoulos是的,在某种意义上,普通的最小二乘总是可以为您提供一些估计!但这可能不是您想要的。如果OP只是想要关于特定回归变量的线性条件期望函数,则我同意自动假定条件。但是,如果OP试图估计某个参数,则证明正交性条件是至关重要的!
马修·冈恩

@MatthewGunn确实,的确是这样。
Alecos Papadopoulos

3

安东尼·帕雷拉达(Antoni Parellada)给出了一个很好的答案,并带有精美的图形化插图。

我只想添加一个注释以总结两个语句之间的区别

  1. 模型的残差几乎是正常的

  2. 残差的变异性几乎恒定

  • 陈述1给出了残差的“形状”“钟形曲线”
  • 声明2个细化传播的的“形状”(是恒定的),在安东尼Parellada的情节3.有3点钟形的曲线,但它们是不同的传播。

1

没有一组唯一的回归假设,但是有多种变体。这些假设中的某些假设比其他假设更严格(即更窄)。同样,在大多数情况下,您不需要,并且在很多情况下,不能真正假设分布是正常的。

您所引用的假设比大多数假设都严格,但是用不必要的宽松措辞来表述。例如,几乎是什么?同样,不是我们施加假设的残差,而是错误。残差是无法观察到的误差估计。这告诉我您引用的来源很差。把它扔出去。

这个问题的简要答案是,如果您考虑任何分布(例如学生t分布)以解决错误(我将在答案中使用正确的术语),那么您可以看到错误如何具有“几乎恒定”的变化而不是来自正态分布,以及如何具有“近乎恒定”的方差不需要正态分布。换句话说,不,您不能在没有其他要求的情况下设计出一个假设。

yi=Xiβ+εiεiN(0σ2
  1. ñ
  2. σε一世
  3. ñX
  4. ÿ=Xβ

因此,当我们以一个或两个方程式将所有假设捆绑在一起时,似乎它们都相互依赖,这是不正确的。接下来,我将演示这一点。

例子1

ÿ一世=X一世β+ε一世ε一世Ťν
ν

例子2

ÿ一世=X一世β+ε一世ε一世ñ0σ2一世
一世

1

我试图在讨论中增加一个新的维度,并使之更具笼统性。如果太基础,请原谅。

回归模型是表达统计关系的两个基本要素的正式方法:

  1. ÿX
  2. 一个点的散射的统计关系弯道。

ÿ

通过假设:

  1. ÿX

  2. X

ÿ

ÿX

ÿXÿX

资料来源:应用线性统计模型,KNNL

ÿX

ÿ一世=β0 +β1个X一世+ϵ

ÿ一世X一世

β0β1个 是参数

ϵñØσ2

一世

Ëÿ|Xβ0β1个σ2β0β1个σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

1和2有何不同?

提出问题

您所说的第一个和第二个假设是同一正态性假设的两个部分,均值为零且方差恒定。我认为应该提出的问题是,这两个假设对正常误差回归模型的含义是什么,而不是这两个假设之间的差异。我之所以这样说,是因为您似乎在将苹果与桔子进行比较,因为您正试图在散布点分布的假设与变异性的假设之间找到差异。可变性是分布的属性。因此,我将尝试回答有关这两个假设的更相关问题。

在正态性的假设下,最大似然估计器(MLE)与最小二乘估计器相同,并且MLE具有作为UMVUE的特性,这意味着它们在所有估计器中的方差最小。

β0β1个Ť


1
这是回归的一个很好的解释。但是它如何回答该线程中的特定问题?
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.