关于逻辑回归中是否存在错误项(及其假设分布),我在不同地方读到:
- 没有错误项
- 误差项具有二项式分布(根据响应变量的分布)
- 错误项具有逻辑分布
有人可以澄清一下吗?
关于逻辑回归中是否存在错误项(及其假设分布),我在不同地方读到:
有人可以澄清一下吗?
Answers:
在线性回归中,假设观测值遵循高斯分布,且均值参数取决于预测值。如果从观测值中减去平均值,则会得到以下误差:均值为零且与预测值无关的高斯分布-也就是说,任何一组预测值的误差都遵循相同的分布。
在逻辑回归中,假设遵循伯努利分布†,且均值(概率)取决于预测值。因此,对于确定均值任何给定预测值,只有两个可能的错误:发生概率为,&发生概率为。对于其他预测变量值,误差将是发生概率为,&发生概率为π 1 - π π 0 - π 1 - π 1 - π ' π ' 0 - π ' 1 - π '。因此,没有独立于预测变量值的常见错误分布,这就是为什么人们说“不存在错误项”(1)的原因。
“误差项具有二项式分布”(2)只是草率—“高斯模型有高斯误差,人机二项模型有二项误差”。(或者,正如@whuber指出的那样,它可以被理解为“观察值与其期望值之间的差异具有由期望值转换的二项式分布”。)
“误差项具有逻辑分布”(3)来自模型的逻辑回归推导,在模型中,您观察逻辑分布后具有错误的潜在变量是否超过某个阈值。因此,它与上面定义的错误不同。(在此上下文之外或未明确引用潜变量的情况下说IMO似乎是一件奇怪的事情。)
†如果您有观测值具有相同的预测值,并且每个观测值都赋予相同的概率,则它们的和遵循二项式分布,且概率为而没有。试验。将视为误差会得出相同的结论。π Σ ý π ķ Σ ý - ķ π
对我来说,逻辑,线性,泊松回归等的统一一直是在广义线性模型框架中对均值和方差的规范。我们首先为数据指定概率分布,为连续数据指定正态分布,为二分法指定伯努利,为计数分配泊松等,然后指定一个链接函数来描述均值与线性预测变量的关系:
对于线性回归,。
对于logistic回归,。
对于Poisson回归,。
就编写错误术语而言,唯一可以考虑的就是声明:
È (Ë 我)= 0 V 一- [R (ë 我)= σ 2(μ 我)σ 2(μ 我)= μ 我(1 - μ 我)= 克- 1(α + X其中且。例如,对于逻辑回归,。但是,您不能明确声明具有如上所述的伯努利分布。È我
但是请注意,基本的广义线性模型仅假设结构用于分布的均值和方差。可以看出,估计方程和Hessian矩阵仅取决于您在模型中假设的均值和方差。因此,您不必担心该模型的分布,因为高阶矩在模型参数的估计中不起作用。