回归残差分布假设


12

为什么有必要将分布假设置于误差上,即

,具有 ε Ñ0 σ 2yi=Xβ+ϵiϵiN(0,σ2)

为什么不写

,与 ÿ ÑX βσ 2yi=Xβ+ϵiyiN(Xβ^,σ2)

其中在任一情况下。 我已经看到它强调指出分布假设是基于错误而不是数据,但没有解释。 ϵi=yiy^

我不太了解这两种说法之间的区别。在某些地方,我看到分布假设被放置在数据上(贝叶斯照明。它似乎主要是),但是大多数情况下,假设被放置在错误上。

在建模时,为什么/应该选择一个假设还是另一个假设开始?


首先,它不是“必需的”,它取决于您打算做什么。有一些很好的答案,但是我认为症结在于因果关系的基本假设,就X而言,x会“造成” y,如果您这样看,您会发现y的分布是由“造成”的rhs的分布,即Xs和错误(如果有)。您可以在非常有限的分布假设下进行大量的计量经济学工作,尤其是没有正态性的情况下。感谢上帝。
PatrickT 2014年

3
不是Xβ,和人口平均ÿ的是不一样的它的样本估计。这是说,第二件事情是不实际的事情是一样的,但是,如果你与它的期望取代它(ē Ÿ=ËŸ=Xβ),这两个是等价的。y^XβyE(y^)=E(y)=Xβ
Glen_b-恢复莫妮卡2014年

什么是ÿ?如果Ÿ 便随着,为什么不X β变化?请确定要使用哪种表示法,向量或矩阵。现在,如果我们假定Ŷ = X β的符号是大于的bizzare:ÿ Ñ X ' Σ X Ĵ X ' Ĵ- 1 Σ X Ĵ ÿ Ĵσ 2y^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2),即您根据本身和所有其他观测值y j定义y i的分布!yiyj
mpiktas 2014年

1
我否决了这个问题,因为我认为这种表示法令人困惑,这已经导致了一些微妙的矛盾答案。
mpiktas 2014年

Answers:


9

在线性回归设置中,通常进行分析并得出以条件的结果,即以“数据”为条件的结果。因此,您需要的是y X是正常的,也就是说,您需要ϵ be是正常的。正如彼得·富勒姆的例子说明,一个可以有正常ε不具有常态Ÿ,和,因此,既然你需要的是正常的ε,这是明智的假设。XyXϵϵyϵ


9

我将第二个定义写为

yiN(Xiβ,σ2)

或(如Karl Oskar建议的+1)

yi|XiN(Xiβ,σ2)

σ2yiXi

ϵiy^


3

用示例最容易说明差异。这是一个简单的例子:

假设Y是双峰的,其模态由一个自变量解释。例如,假设Y为身高,而您的样本(无论出于何种原因)由骑师和篮球运动员组成。例如在R

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

第一密度是非常不正常的。但是模型的残差非常接近法线。

关于为什么这样设置限制-我将让其他人回答。


1
yiϵi

在那种情况下,异方差会成为一个问题,您将需要使用其他某种形式的回归,或者可能是某种转换,或者您可以添加另一个变量(在这个愚蠢的例子中,篮球中的位置可能会做到这一点)。
彼得·弗洛姆

我不确定公式是否旨在暗示ys是正态分布的,只是它们具有正态条件分布。
2014年

2


yiN(y^i,σε2)
y^xi

y^ixiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]

因此问题就来了,是否有理由更喜欢使用第一种表达方式来表达这个想法?

我认为答案是肯定的,原因有两个:

  1. YXY|Xε
  2. Y|XY|X

我相信,使用第二种提法比使用第一种提法更容易使这些混淆。


1
y^Xβy^ixiβ^iy^ixiβ^Y

y¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.