线性回归:是否有任何非正态分布给出OLS和MLE的身份?


13

这个问题的灵感来自长期的评论讨论: 线性回归如何使用正态分布?

在通常的线性回归模型中,为了简单此处写入只有一个预测器:

Yi=β0+β1xi+ϵi
其中xi是已知的常数,ϵi是零均值独立误差项。如果我们除了承担的误差正态分布,则通常的最小二乘估计和最大似然估计β0,β1是相同的。

因此,我的问题很简单:误差项是否存在其他分布,以使mle与普通最小二乘方估计量相同?一种含义很容易显示,另一种则不然。


1
(+1)它必须是一个以零为中心的分布,并且如果它是对称的1似乎会有所帮助。想到的某些候选对象(例如t或Laplace分布)似乎并没有发挥作用,因为即使仅在恒定情况下,MLE也无法以封闭形式或由中位数给出。
Christoph Hanck

另请参阅stats.stackexchange.com/questions/99014/…,似乎只有这么多
Christoph Hanck

我确定答案是否定的。但是可能很难写出严格的证明。
Gordon Smyth

Answers:


11

在最大似然估计中,我们计算

β^ML:lnf(ϵi)β=0f(ϵi)f(ϵi)xi=0

最后一个关系考虑了回归方程的线性结构。

相比之下,OLS估计量满足

ϵixi=0

为了获得相同的斜率系数代数表达式,我们需要具有误差项的密度,使得

f(ϵi)f(ϵi)=±cϵif(ϵi)=±cϵif(ϵi)

这些是形式为y ' = ±的微分方程有解决方案y=±xy

1ydy=±xdxlny=±12x2

y=f(ϵ)=exp{±12cϵ2}

具有此内核并在适当域上集成为一体的任何函数,都将使斜率系数的MLE和OLS相同。即我们正在寻找

g(x)=Aexp{±12cx2}:abg(x)dx=1

g

当然。但是还需要考虑的另一件事是:如果在指数中使用加号,并在例如零附近使用对称支撑,则将获得一个密度,该密度在中间具有唯一的最小值,而在该位置具有两个局部最大值支持的边界。


很好的答案(+1),但是如果函数中使用加号,它甚至是密度吗?这样看来,该函数具有无限积分,因此无法归一化为密度函数。如果是这样,我们只剩下正态分布。
本-恢复莫妮卡

1
(a,b)

是的-我以为是。
本-恢复莫妮卡

5

argβ0,β1mini=1n(yiβ0β1xi)2
ARG β 0β 1分钟Ñ Σ= 1个日志{ ˚F ÿ | X β 0β 1} = ARG β 0β 1分钟Ñ Σ= 1ÿ - β 0f(y|x,β0,β1)
argβ0,β1mini=1nlog{f(yi|xi,β0,β1)}=argβ0,β1mini=1n(yiβ0β1xi)2
f(y|x,β0,β1)=f0(y|x)exp{ω(yiβ0β1xi)2}
f0(y|x)不依赖于参数。因此,这种分布是无限的。(β0,β1)

两个估计值都重合的另一个设置是当数据来自球对称分布时,即(矢量)数据具有条件密度加上递减函数。(在这种情况下,OLS仍然可用,尽管的独立性仅在正常情况下成立。) ħ | | ý - X β | |ħ ε y

h(||yXβ||)
h()ϵi

1
这对我来说似乎不正确。如果您使用不同的球对称分布,这是否会导致最小化范数不同于平方的函数(因此不是最小二乘估计)?
本-恢复莫妮卡

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.