Y必须服从正态分布的误解来自何处?


45

看似有信誉的消息来源声称因变量必须正态分布:

模型假设:是正态分布,误差是正态分布,,并且是独立的,并且是固定的,并且是恒定方差。YeiN(0,σ2)Xσ2

宾夕法尼亚州立大学,STAT 504离散数据分析

其次,线性回归分析要求所有变量均为多元正态。

统计解决方案,线性回归假设

当响应变量具有正态分布时,这是适当的

维基百科,广义线性模型

对于这种误解如何或为何蔓延,有很好的解释吗?它的起源已知吗?

有关


17
伤心。您在这里做得很好……
jbowman

7
我不知道使用线性回归的任何情况都需要的边际分布,或者所有变量的联合都是多元正态的。在我看来,这些看起来像是误解。Y
马修·德鲁里

8
@MichaelChernick“ Y是正态分布的”显然是错误的。检查它在R:X <- runif(n=100)然后Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)再用直方图玩说服自己,x和y都不是正态分布。然后summary(lm(Y ~ X)),并非常注意截距与3的接近程度,X的斜率与0.5的接近程度。假设误差是正态分布的。
亚历克西斯

9
@Alexis我相信Michael想要说的是多元正态性假设是足够的,但不是必须的。 显然,这就是应该阅读Wikipedia语录的方式。第二个引语显然在断言那些假设是必要的时是错误的。第一句话是模棱两可的,但可以按照迈克尔阐明的含义大方地阅读。
whuber

6
我只是说正态性假设意味着某些性质。例如,在简单线性回归中,如果假设误差项为iid正态且均值为零且方差恒定,则回归参数的最小二乘估计为最大似然。保持除正态性最小二乘法外的所有假设不再是最大似然,而是仍然保持最小方差不变。
Michael

Answers:


13

“ Y必须正态分布”

必须?


在您提到的情况是草率的语言的情况下(缩写“ Y中的错误必须是正态分布的”),但是他们并没有真正(强烈地)说响应必须是正态分布的,或者至少它似乎没有我说他们的话是这样的。

宾夕法尼亚州立课程材料

谈到“连续变量 ”Y,也谈到“ ”,如,在这里我们可以将视为正态分布,在注释“条件”的注释中称为变形虫,Yi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

本文互换使用和。在整篇文章中,都谈到“ Y的分布”,例如: YYi

  • 在解释GLM的某些变体(二进制逻辑回归)时,

    随机分量:假设的分布为,...YBinomial(n,π)

  • 在某种定义上

    随机分量 –指响应变量()的概率分布;例如,线性回归中正态分布,或二进制逻辑回归中二项分布。YYY

但是在其他地方,它们也引用而不是:YiY

  • 因变量不需要正态分布,但是它通常假定来自指数族(例如,二项式,泊松,多项式,正态等)的分布。Yi

统计解决方案网页

是一个非常简短,简化,风格化的描述。我不确定您是否应该认真对待。例如,它谈到

..要求所有变量均为多元正态...

所以这不仅仅是响应变量,

而且“多变量”描述符也含糊不清。我不确定该如何解释。

维基百科文章

在方括号中说明了其他上下文:

普通线性回归将给定未知量的期望值(响应变量,随机变量)预测为一组观测值(预测变量)的线性组合。这意味着预测变量的不断变化会导致响应变量(即线性响应模型)不断变化。当响应变量具有正态分布时(直觉上,当响应变量可以在没有固定“零值”的方向上基本上无限期地变化,或更一般地,对于仅以相对较小量变化的任何量,例如人类),这是适当的高度)。

此“无固定零值”似乎表明当具有无限域(从负无穷大到正无穷大)时,线性组合 情况有限的截止值(例如不允许负数的计数)。y+ϵϵN(0,σ)

该特定行已于20123月8日添加,但请注意,Wikipedia文章的第一行仍为“普通线性回归的灵活概括,允许具有非正态分布的误差分布模型的响应变量”,而并非太多(不是到处都是)错误。


结论

因此,基于这三个示例(确实可能产生误解,或者至少可能会误解),我不会说“这种误解已经蔓延”。或者至少在我看来,这三个示例的意图并不是要辩称Y必须是正态分布的(尽管我确实记得这个问题是在stackexchange之前出现的,即正态分布的错误和正态分布的响应变量之间的交换。很容易制作)。

因此,在我看来,“ Y必须是正态分布”的假设似乎不像是一种普遍的信念/误解(就像在传播像红鲱鱼一样的东西),而更像是一个常见的错误(这种误差没有传播,但每次都独立产生) )。


附加评论

以下问题是该网站上的错误示例:

如果残差是正态分布的,而y不是,该怎么办?

我认为这是一个初学者的问题。宾夕法尼亚州立大学课程资料,维基百科网站等资料中没有它,最近在评论中注意到“用R扩展线性回归”一书。

这些作品的作者确实正确地理解了材料。确实,他们使用了诸如“ Y必须正态分布”之类的短语,但是基于上下文和所使用的公式,您可以看到它们都表示“以X为条件的Y必须正态分布”,而不是“边际Y必须正态分布”。他们自己并没有误解这个想法,至少这个想法在统计学家和写书和其他课程资料的人中并不普遍。但是,误读他们含糊不清的单词可能确实会引起误解。


3
+1表示:我认为我们所有人都在这里发现许多问题来断言Y的边际正态性…误解有所蔓延。:)
Alexis

是的,我同意“ y正态分布”的假设经常出现(我无法轻松找到示例,但这可能是因为人们在两行之间而不是使用简单的关键字来描述这些东西)。但是,我相信这更多是“常见”的东西,而不是太多“ 散布 ”的东西。至少,可以肯定的是,OP给出的三个例子不是很强(尽管它们确实描述了语言的病理用法以及错误的产生方式,但在表明误解蔓延的意义上并不强)。
Sextus Empiricus

@Martijn Weterings:我不同意您的说法“我不会说这种误解已经蔓延”。朱利安·法拉威(Julian Faraway)在他的《用R扩展线性回归》一书中,将其用作许多研究生统计程序的必读材料,在该书序言的第xi页中指出:“标准线性模型无法处理非正态响应y,例如数量或比例”。
ColorStatistics

@ColorStatistics,请注意我对“广泛传播”的上下文和解释(例如在传播时像红鲱鱼一样)。人们会犯错误,而这些错误可能无处不在。但这不像复制时那样分散(例如,复制错误的例子,并且扩散是在列联表中使用个自由度而不是,发生在1900年至1920年之间).....n1(r1)(c1)
Sextus Empiricus

1
@ColorStatistics,我只是遍历了文本的某些部分,很明显,作者并没有感到困惑(基于不明确的公式)。例如,该书甚至以“其中正态分布)”y=β0+β1x1+...βpxp+ϵϵ。实际上,作者经常使用诸如“响应是……分散的”之类的短语。但是,这意味着条件响应。我认为这更多是速记的写作,而作者并不是要从字面上传达边际反应应该具有所提到的特定分布。
Sextus Empiricus

29

对于这种误解如何/为什么蔓延有很好的解释吗?它的起源已知吗?

我们通常会在许多学科上向本科生教授统计学的“简化”版本。我是心理学家,当我试图告诉大学生p值是“假设零假设成立的数据的概率,或更极端的数据,”同事们告诉我,我所涵盖的细节超出了我的需要覆盖。我正在使它变得比以前更加困难。等等。由于课堂上的学生对统计数据有如此宽泛的舒适度(或缺乏舒适度),因此教师通常会简单地说:“我们认为这是一个可靠的发现例如,p <.05”,而不是为他们提供p值的实际定义。

我认为这就是为什么误解蔓延的原因。例如,您可以将模型编写为:

Y=β0+β1X+ϵ其中ϵN(0,σϵ2)

可以重写为:

Y|XN(β0+β1X,σϵ2)

这意味着“以X为条件的Y,通常以预测值的平均值和一些方差分布”。

这很难解释,因此速记人员可能只是说:“ Y必须正态分布。” 或者,当最初向他们解释时,人们误解了条件部分,因为老实说这是令人困惑的。

因此,为了不使事情变得非常复杂,教师只是简化他们在说的话,以免过度混淆大多数学生。然后人们继续对这种误解进行统计教育或统计实践。直到我开始在Stan中进行贝叶斯建模之前,我本人还没有完全理解这个概念,这需要您以这种方式编写假设:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

此外,在许多带有GUI的统计数据包中(看着您,SPSS),检查边际分布是否为正态分布(简单直方图)要比检查残差是否为正态分布(运行回归,保存残差,对这些残差运行直方图)。

因此,我认为误解主要是由于讲师试图删除细节以使学生避免以正确的方式学习它的人们之间的困惑,真实和可理解的困惑,而这两者都通过易于检查学习者的边缘正常性而得到了加强。大多数用户友好的统计软件包。


2
我认为你是对的。许多人不了解条件部分。他们只是认为正态分布。
SmallChess

3
我同意这可能是错误发生/传播的方式中的“一种”。然而,在我看来,宾夕法尼亚州立大学的课程材料并不是由于这种“有意的”简化,而是由于草率的书写方式。它有点像(课程)笔记。或喜欢对stackexchange的评论,语言的简化。在某些地方,他们确实使用正确的单词。(就我个人而言,我的示意​​图/图表比我的文字/公式更好,但这并不意味着我写的东西,如果错了,肯定是错误的想法)
Sextus Empiricus 18-4-26

1
@MartijnWeterings同意-通过不使用特定语言来混淆某人非常容易。总是很难用统计假设之类的抽象语言来具体描述您的语言,许多聪明的人会犯下简单的错误,从而导致广泛的误解。
马克·怀特

1
马克·怀特(MarkWhite),我非常感谢您对我们的教学方式给予的关注……我认为这对OP的“误解传播”(除了误解和误解的细微差别)的兴趣起着重要作用。 )。
亚历克西斯

16

对于初学者来说,回归分析很困难,因为不同的起始假设暗示了不同的结果。较弱的开始假设可以证明某些结果是正确的,但是当您添加更强的假设时,您可以获得更强的结果。不熟悉结果的完整数学推导的人经常会误解结果的必要假设,或者过分地虚化模型而无法获得所需的结果,或者由于认为结果是必需的而提出了一些不必要的假设。

尽管可以添加更强的假设来获得更多结果,但是回归分析本身涉及响应向量的条件分布。如果模型超出此范围,那么它将进入多元分析的领域,而并非严格(仅)是回归模型。由于通常在回归中引用分布结果而不总是总是小心地指出它们是条件分布(给定设计矩阵中的解释变量),这一事实使问题进一步复杂化。在模型超出条件分布的情况下(通过假设解释性矢量的边际分布),用户应谨慎指定这种差异。不幸的是,人们并不总是对此保持谨慎。


同方线性回归模型:通常使用的最早起点是假设模型形式和前两个误差矩,而根本不假设任何正态性:

Y=xβ+εE(ε|x)=0V(ε|x)I.

这种设置足以让您获得系数的OLS估计器,误差方差的无偏估计器,残差以及所有这些随机量的矩(以设计矩阵中的解释变量为条件)。它不允许您获得这些量的全部条件分布,但如果大并且对的极限行为进行了一些附加假设,则确实允许吸引渐近分布。为了更进一步,通常假设误差矢量具有特定的分布形式。nx

正态误差:同方线性回归模型的大多数处理方法都假设误差向量呈正态分布,并结合力矩假设得出:

ε|xN(0,σ2I).

此附加假设足以确保系数的OLS估计量为模型的MLE,这也意味着系数估计量和残差呈正态分布,并且误差方差的估计量具有按比例的卡方分布(所有取决于设计矩阵中的解释变量)。它还确保了响应向量有条件地正态分布。这给出了以分析中的解释变量为条件的分布结果,从而可以构建置信区间和假设检验。如果分析人员想对响应的边际分布做出发现,他们需要走得更远,并为模型中的解释变量假设一个分布。

联合正态解释变量:高纯线性回归模型的某些处理方法比标准处理方法更进一步,并且不以固定的解释变量为条件。(可以说这是从回归建模过渡到多元分析的过渡。)这种最常见的模型假设解释性矢量是IID联合正态随机矢量。令为第个解释向量(设计矩阵的第行),我们有:X(i)ii

X(1),...,X(n)IID N(μX,ΣX).

此附加假设足以确保响应向量在边际上呈正态分布。这是一个很强的假设,通常不会在大多数问题中强加。如前所述,这将模型带入了回归建模的范围之外,并进入了多元分析。


1
我发现您一个接一个地介绍更强的假设并描述其中的含义非常有见地。
ColorStatistics
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.