很明显,格雷格的建议是第一件事:泊松回归是许多具体模型中的自然模型情况。
但是,您建议的模型可能会出现,例如,当您观察到四舍五入的数据时:
具有iid正常错误。
Yi=⌊axi+b+ϵi⌋,
ϵi
我认为看看可以用它做什么是很有趣的。我用表示标准正态变量的cdf。如果,则
使用熟悉的计算机符号。Fϵ∼N(0,σ2)
P(⌊ax+b+ϵ⌋=k)=F(k−b+1−axσ)−F(k−b−axσ)=pnorm(k+1−ax−b,sd=σ)−pnorm(k−ax−b,sd=σ),
您观察到数据点。对数似然由
这与最小二乘法不同。您可以尝试使用数值方法使其最大化。这是R中的插图:(xi,yi)
ℓ(a,b,σ)=∑ilog(F(yi−b+1−axiσ)−F(yi−b−axiσ)).
log_lik <- function(a,b,s,x,y)
sum(log(pnorm(y+1-a*x-b, sd=s) - pnorm(y-a*x-b, sd=s)));
x <- 0:20
y <- floor(x+3+rnorm(length(x), sd=3))
plot(x,y, pch=19)
optim(c(1,1,1), function(p) -log_lik(p[1], p[2], p[3], x, y)) -> r
abline(r$par[2], r$par[1], lty=2, col="red")
t <- seq(0,20,by=0.01)
lines(t, floor( r$par[1]*t+r$par[2]), col="green")
lm(y~x) -> r1
abline(r1, lty=2, col="blue");
在红色和蓝色中,分别通过此可能性的数值最大化和最小二乘找到的线。绿色楼梯为从最大似然发现......这表明,你可以使用最小二乘法,最多的译文 0.5,并得到大致相同的结果; 或者,最小二乘方很好地拟合了模型
其中是最接近的整数。经常遇到四舍五入的数据,以至于我确信这是已知的,并且已经进行了广泛的研究。ax+b⌊ax+b⌋a,bb
Yi=[axi+b+ϵi],
[x]=⌊x+0.5⌋