为什么普通最小二乘法的性能优于泊松回归?


18

我试图通过回归分析来解释城市每个地区的凶杀案数量。尽管我知道我的数据遵循泊松分布,但我尝试像这样拟合OLS:

log(y+1)=α+βX+ϵ

然后,我也尝试了(当然!)泊松回归。问题是我在OLS回归中有更好的结果:伪较高(0.71对0.57),RMSE也较高(3.8对8.88。标准化以具有相同的单位)。R2

为什么?正常吗 无论数据分布如何,使用OLS都有什么问题?

编辑 根据kjetil b halvorsen等人的建议,我通过两个模型拟合了数据:OLS和负二项式GLM(NB)。我从拥有的所有功能开始,然后递归地逐一删除了不重要的功能。OLS是

crimearea=α+βX+ϵ

权重=。area

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

NB预测犯罪数量,以该地区的面积为准。

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

OLS残差:

在此处输入图片说明

NB残差

在此处输入图片说明

因此,OLS中的RMSE较低,但残差似乎不是正常的...。


您可以发布更多详细信息吗?数据的本质是什么?也就是说,响应变量计数是多少?解释变量是什么?
kjetil b halvorsen '16

@kjetilbhalvorsen因变量是每个地区(112个地区)的凶杀案数量。唯一的是城市的结构特征(街道交叉口,POI等)
marcodena

2
如果我使用Poisson回归拟合该模型,我将包括log(districtsize)作为偏移量,以说明并非所有区域都是ame大小。除非他们是。
mdewey

1
您认为将ML估计(和)中的OLS与进行比较,可以为您说明某个模型的质量有何根据?通过构造,OLS使最大化。是否构造了Poison回归以最大化?我不这样认为,并且我认为这种比较没有用。R2pseudoR2RMSER2pseudoR2
coffeinjunky

1
R2z=log(y+1)R2y

Answers:


16

我怀疑问题的一部分可能在于您选择的绩效指标。如果您使用RMSE衡量测试性能,则训练模型以最小化MSE符合测试标准,从而提示重要的内容。您可能会发现,如果使用Poisson可能性使用测试集的负对数似然率来衡量测试性能,则Poisson模型的效果会更好(如预期)。与提出的其他问题相比,这可能是一个小问题,但它可能是一个有用的健全性检查。


1
+1。如果OP的目标是预测,那么实际上可能有理由使用OLS模型!尽管如此,由OLS引起的基于错误的经典推论不能/不应该在GLM中应用。可以检查学生化的残差,或者更好的选择是将模型与AIC进行比较。
AdamO'7

11

首先,对于此类数据,我会期望出现过度分散(如果您不知道那是什么,请参阅/stats//search?q=what+is+overdispersion%3F)。

log(DistrictSize)Nr. homicidesDistrict Size

另一个问题是您在线性回归中使用的变换。与计数数据一起使用的通常的方差稳定化变换是平方根,而不是对数。

Yi/xiYiPoisson(λxi)

EYixiλVYixixi1
xiYi/xilog(Yi/xi+1)
    EDIT

至于帖子中的其他分析,请注意,由于使用了不同的响应,因此无法直接比较两个模型之间的均方根值!为了进行直接比较,您将需要将预测值反向转换为原始比例。然后,您可以自己计算rmse,然后看看。但是请注意,由于非线性,在逆变换后获得的预测可能会产生偏差。因此,对反向转换的预测进行一些调整可能会使它们更有用。在某些情况下,可以从理论上计算出该值,也可以仅使用引导程序。


我按照您的建议拟合了模型,尽管我不太了解加权OLS背后的原因。你怎么看?
marcodena


2

的确,您的数据不是正态分布的(我认为这也是为什么您还要运行Poisson回归),但是您的数据也可能不是Poisson分布。泊松分布假设均值和方差相同,但事实并非如此(如其他答案所述-您可以捕获这种差异并将其纳入模型中)。由于您的数据并非真的适合任何一种模型,因此OLS的性能可能更好。

要注意的另一件事是,普通最小二乘估计对非正态性具有鲁棒性,这可能就是为什么您得到一个合理模型的原因。高斯-马尔可夫定理告诉我们,在以下假设下,OLS系数估计是最好的(根据均方误差)线性无偏估计器(BLUE),

  • 误差的平均值为零
  • 观察结果不相关
  • 误差具有恒定的方差

这里没有Normality的假设,因此您的数据对于此模型可能非常合理!话虽如此,我将研究一个带有过度散布参数的泊松模型,您将获得更好的结果。


@TynnaDoStat谢谢!我现在安装了两个模型,一个模型具有色散参数。你怎么看?
marcodena

2
方差=泊松分布的均值通常被称为泊松回归的一个有问题的假设,但这一点并不像这里暗示的那样困难。尽管名字叫Poisson回归,但它的主要思想是对数链接函数。关于条件分布的假设并不是那么重要。如果所有假设都不成立,则主要是除非您进行调整,否则标准误差将不成立,但拟合通常会很有意义。
Nick Cox

2
的确,对于方差和均值甚至没有相同维数的非负测量响应,泊松回归是有意义的。例如参见blog.stata.com/2011/08/22/...
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.