他们为什么会在这里选择伽玛分布?


14

在本课程的其中一项练习中,我们使用的是Kaggle医学数据集

练习说:

我们希望对单个费用的分布进行建模,我们也确实希望能够捕获有关该分布的不确定性,以便更好地捕获可能看到的值的范围。加载数据并执行初始视图:

情节

从上面我们可能会怀疑这里存在某种指数状分布。...保险索赔费用可能是多式联运的。伽马分布可能是适用的,我们可以测试一下并非首先是保险索赔的费用的分布。

查看了 “伽玛分布”,发现“一个连续的,仅正的单峰分布,该分布编码了在Poisson过程中发生“ alpha”事件所需的时间,平均到达时间为“ beta”。

这里没有时间,只有无关的费用,无论是否有保险。

他们为什么要选择伽玛分布?

Answers:


27

当您考虑使用简单的参数化模型进行数据的条件分布(即每个组的分布,或预测变量的每种组合的预期分布),并且要处理正连续分布时,两个常见的选择是Gammalog-Normal。除了满足分布域的规范(实数大于零)之外,这些分布在计算上也很方便并且通常具有机械意义。

  • 数正态分布可以通过对正态分布求幂来轻松得出(相反,对数转换对数正态偏差表示正态偏差)。从机械的观点来看,当每个观测值反映大量同义随机变量的乘积时,对数正态通过中心极限定理产生。对数据进行日志转换后,就可以使用各种计算和分析工具(例如,假设正态性或使用最小二乘法的任何工具)。
  • 正如您的问题所指出的,伽马分布的一种产生方式是等待时间的分布,直到独立事件的等待时间为为止。我很难找到关于保险索赔Gamma分布机理模型的参考,但是从现象学(即数据描述/计算便利性)的角度使用Gamma分布也很有意义。Gamma分布是指数族的一部分(包括正态但包括对数正态),这意味着广义线性模型的所有机制nλ可用;它还具有特别方便的分析形式。

还有一个可能会选择另一个的原因-例如,分布尾部“沉重”,这对于预测极端事件的发生频率可能​​很重要。还有许多其他的积极的,连续的分布(例如,请参见此列表),但是它们往往用于更专业的应用程序中。

在这些分布中,很少会捕获您在上面的边际分布中看到的多模态,但是可以通过将数据分组为观察到的分类预测器描述的类别来解释多模态。如果没有可观察到的预测因子解释多模态,则可能会选择基于(少量,离散)数量的正连续分布的混合来拟合有限混合模型


1
同样值得注意的是,伽马和对数正态模型几乎总是给出非常相似的结果
卡洛

2
我从事卫生服务研究。我可以确认,一般而言,对于医疗保健支出或索赔金额的模型,伽马或对数正态分布将是适当的选择。伽马分布可及时用于事件模型,但此处不适用。
吴伟文

谢谢!!这非常有帮助。
Vicki B
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.