当您考虑使用简单的参数化模型进行数据的条件分布(即每个组的分布,或预测变量的每种组合的预期分布),并且要处理正连续分布时,两个常见的选择是Gamma和log-Normal。除了满足分布域的规范(实数大于零)之外,这些分布在计算上也很方便并且通常具有机械意义。
- 对数正态分布可以通过对正态分布求幂来轻松得出(相反,对数转换对数正态偏差表示正态偏差)。从机械的观点来看,当每个观测值反映大量同义随机变量的乘积时,对数正态通过中心极限定理产生。对数据进行日志转换后,就可以使用各种计算和分析工具(例如,假设正态性或使用最小二乘法的任何工具)。
- 正如您的问题所指出的,伽马分布的一种产生方式是等待时间的分布,直到独立事件的等待时间为为止。我很难找到关于保险索赔Gamma分布机理模型的参考,但是从现象学(即数据描述/计算便利性)的角度使用Gamma分布也很有意义。Gamma分布是指数族的一部分(包括正态但不包括对数正态),这意味着广义线性模型的所有机制ñλ可用;它还具有特别方便的分析形式。
还有一个可能会选择另一个的原因-例如,分布尾部的“沉重”,这对于预测极端事件的发生频率可能很重要。还有许多其他的积极的,连续的分布(例如,请参见此列表),但是它们往往用于更专业的应用程序中。
在这些分布中,很少会捕获您在上面的边际分布中看到的多模态,但是可以通过将数据分组为观察到的分类预测器描述的类别来解释多模态。如果没有可观察到的预测因子解释多模态,则可能会选择基于(少量,离散)数量的正连续分布的混合来拟合有限混合模型。