在保险环境中建模索赔计数数据时,我从泊松开始,但后来发现分散过度。准泊松比基本泊松更好地模拟了更大的均方差关系,但我注意到泊松模型和准泊松模型中的系数相同。
如果这不是错误,为什么会这样?与Poisson相比,使用Quasi-Poisson有什么好处?
注意事项:
- 基本损失是过大的(我认为)使Tweedie无法正常工作-但这是我尝试的第一个发行版。我还检查了NB,ZIP,ZINB和Hurdle模型,但仍然发现准泊松提供了最佳拟合。
- 我通过AER封装中的分散测试对过分散进行了测试。我的色散参数约为8.4,p值为10 ^ -16。
- 我正在将glm()与family = poisson或quasipoisson一起使用,并使用代码的日志链接。
- 当运行Poisson代码时,出现“ In dpois(y,mu,log = TRUE):非整数x = ...”的警告。
每个Ben指导的有用SE线程:
Tweedie发行版不是更好的主意吗?
—
duffymo 2015年
从一开始就尝试过Tweedie,但我们的损失数据不是累积的,而是过大的。还尝试了负二项式,ZIP和跨栏模型来解决计数离散问题。
—
Frank H.
您能否进一步解释一下数据中非整数值的来源?
—
本·博克
您不应该通过计算的比率来模拟频率/速率
—
本·博克
counts/exposure
。相反,您应该offset(log(exposure))
在模型中添加offset()项。
这是实用的,尽管在进行Poisson(而不是准Poisson)建模时最重要。我不知道有什么好的参考资料。如果您在CrossValidated上找不到相关的答案,那么它将是一个很好的后续问题。
—
本·博克