4
为什么普通最小二乘法的性能优于泊松回归?
我试图通过回归分析来解释城市每个地区的凶杀案数量。尽管我知道我的数据遵循泊松分布,但我尝试像这样拟合OLS: log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon 然后,我也尝试了(当然!)泊松回归。问题是我在OLS回归中有更好的结果:伪较高(0.71对0.57),RMSE也较高(3.8对8.88。标准化以具有相同的单位)。R2R2R^2 为什么?正常吗 无论数据分布如何,使用OLS都有什么问题? 编辑 根据kjetil b halvorsen等人的建议,我通过两个模型拟合了数据:OLS和负二项式GLM(NB)。我从拥有的所有功能开始,然后递归地逐一删除了不重要的功能。OLS是 crimearea−−−−√=α+βX+ϵcrimearea=α+βX+ϵ\sqrt{\frac{crime}{area}} = \alpha + \beta X + \epsilon 权重=。areaareaarea summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area …