泊松与拟泊松模型中估计的相同系数


12

在保险环境中建模索赔计数数据时,我从泊松开始,但后来发现分散过度。准泊松比基本泊松更好地模拟了更大的均方差关系,但我注意到泊松模型和准泊松模型中的系数相同。

如果这不是错误,为什么会这样?与Poisson相比,使用Quasi-Poisson有什么好处?

注意事项:

  • 基本损失是过大的(我认为)使Tweedie无法正常工作-但这是我尝试的第一个发行版。我还检查了NB,ZIP,ZINB和Hurdle模型,但仍然发现准泊松提供了最佳拟合。
  • 我通过AER封装中的分散测试对过分散进行了测试。我的色散参数约为8.4,p值为10 ^ -16。
  • 我正在将glm()与family = poisson或quasipoisson一起使用,并使用代码的日志链接。
  • 当运行Poisson代码时,出现“ In dpois(y,mu,log = TRUE):非整数x = ...”的警告。

每个Ben指导的有用SE线程:

  1. 泊松回归中偏移的基本数学
  2. 偏移量对系数的影响
  3. 使用曝光作为协变量与偏移量之间的区别

Tweedie发行版不是更好的主意吗?
duffymo 2015年

从一开始就尝试过Tweedie,但我们的损失数据不是累积的,而是过大的。还尝试了负二项式,ZIP和跨栏模型来解决计数离散问题。
Frank H.

1
您能否进一步解释一下数据中非整数值的来源?
本·博克

6
不应该通过计算的比率来模拟频率/速率counts/exposure。相反,您应该offset(log(exposure))在模型中添加offset()项。
本·博克

1
这是实用的,尽管在进行Poisson(而不是准Poisson)建模时最重要。我不知道有什么好的参考资料。如果您在CrossValidated上找不到相关的答案,那么它将是一个很好的后续问题。
本·博克

Answers:


25

这几乎是重复的 ; 链接的问题说明您不应期望系数估计,残余偏差和更改自由度。从Poisson移到准Poisson时唯一改变的是,先前固定为1的比例参数是根据对残差/拟合度的一些估计(通常是通过Pearson残差的平方和来估计的)来计算的()除以残差df,尽管渐近地使用残差偏差得出相同的结果)。结果是,标准误差由该缩放参数的平方根缩放,伴随置信区间和变化。χ2p

准似然的好处是,它解决了假设数据是泊松(=齐次,独立计数)的基本谬误;但是,以这种方式解决问题可能会掩盖数据的其他问题。(见下文。)拟似然性是处理过度分散的一种方法。如果您不以某种方式解决过度分散问题,您的系数将是合理的,但您的推断(CI,等)将是垃圾。p

  • 如您在上面的评论中所述,有很多不同的方法来进行过度分散(Tweedie,不同的负二项式参数化,准似然,零通货膨胀/变动)。
  • 在> 5(8.4)的超分散因子的情况下,我会担心它是否是由某种模型失配驱动的(异常值,零通胀(我已经看过您已经尝试过),非线性)而不是代表全面的异质性。我一般的处理方法是对原始数据进行图形化探索并进行回归诊断...

很有帮助。现在我看到,由于您提到的缩放比例,泊松变量和变量水平的p值在统计上比准泊松统计的重要得多。我确实测试了异常值,但没有发现这是一个问题。过度分散可能掩盖了其他一些问题,或者找到这些问题的此类方法的示例?
Frank H.

链接(对数)尺度上的响应大多是非线性的;检查残差-vs拟合图和残差-vs-predictor-变量图,查看是否有模式。
本·博克

1
+1布置精美!我非常感谢你第一段的清晰。
亚历克西斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.