我一直在尝试了解要在GLM中使用哪些发行版,而在何时使用正态发行版时我有些糊涂。在我的教科书的一部分中,它说正态分布可能对建模考试成绩很有利。在下一部分中,它询问对汽车保险索赔进行建模的哪种分布是合适的。这次,它说适当的分布将是Gamma或反高斯分布,因为它们仅以正值连续。好吧,我相信考试成绩也只会是正数,而是连续的,那为什么我们要在那使用正态分布呢?正态分布是否允许负值?
我一直在尝试了解要在GLM中使用哪些发行版,而在何时使用正态发行版时我有些糊涂。在我的教科书的一部分中,它说正态分布可能对建模考试成绩很有利。在下一部分中,它询问对汽车保险索赔进行建模的哪种分布是合适的。这次,它说适当的分布将是Gamma或反高斯分布,因为它们仅以正值连续。好吧,我相信考试成绩也只会是正数,而是连续的,那为什么我们要在那使用正态分布呢?正态分布是否允许负值?
Answers:
例如,高度通常被建模为正常。也许男人的身高大约是5英尺10,标准偏差为2英寸。我们知道负高度是不自然的,但是在此模型下,观测到负高度的可能性基本上为零。无论如何我们都使用该模型,因为它足够好近似。
所有型号都不对。问题是“该模型是否仍然有用”,并且在我们对诸如身高和测试分数之类的事物进行建模的情况下,将现象建模为正常是有用的,尽管它在技术上允许不自然的事物。
正态分布是否允许负值?
正确。它也没有上限。
在我的教科书的一部分中,它说正态分布可能对建模考试成绩很有利。
尽管有前面的说明,但是有时还是这样。如果您要测试的组件很多,关联性不是太强(例如,您本质上不是同一问题数十次,每个部分也不要求对上一部分有正确的答案),并且不是很容易或很难(因此大多数标记都在中间附近的某处),那么标记通常可以通过正态分布合理地很好地近似;通常情况下,通常的分析应该引起很少的关注。
我们可以肯定地知道它们不是正常的,但这并不是自动出现的问题-只要我们使用的过程的行为足够接近我们应达到的目的(例如标准误差,置信区间,显着性水平)和电源-无论需要什么-都接近我们期望的水平)
在下一部分中,它询问对汽车保险索赔进行建模的哪种分布是合适的。这次,它说适当的分布将是Gamma或反高斯分布,因为它们仅以正值连续。
是的,但不仅如此-它们趋向于严重右偏,并且当均值变大时,变异性趋于增加。
这是车辆索赔的索赔额分布示例:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(图5来自Garrido,Genest&Schulz(2016)“关于保险索赔的相关频率和严重性的通用线性模型”,《保险:数学与经济学》,第70卷,9月,第205-215页。https ://www.sciencedirect。 com / science / article / pii / S0167668715303358)
这显示了典型的右偏斜和沉重的右尾巴。但是,我们必须非常小心,因为这是边际分布,并且我们正在为条件分布编写模型,该模型通常不会出现较大的偏斜(如果仅对索赔大小进行混合的直方图,我们将查看边际分布这些条件分布)。不过,通常情况是,如果我们按预测变量的子组(可能是对连续变量进行分类)查看索赔额,则该分布仍然偏右偏,右尾偏重,这表明像是伽马模型*比高斯模型更合适。
*可能有许多其他分布比高斯分布更合适-逆高斯分布是另一种选择-尽管不那么常见;对数正态模型或Weibull模型虽然不是目前的GLM,但也可能非常有用。
[几乎没有任何一种分布接近完美的描述;它们是不精确的近似值,但在许多情况下都足够好,以至于该分析有用并且具有接近所需的特性。]
好吧,我相信考试成绩也只会是正数,而是连续的,那为什么我们要在那使用正态分布呢?
因为(在我之前提到的条件下-很多组件,不太依赖,不难或不容易),所以分配趋向于非常接近对称,单峰且不重尾。
通过二项分布可以更好地模拟考试分数。在高度简化的情况下,您可能有100个对/错问题,每个问题都得1分,所以分数将是0到100之间的整数。 ),分数是独立随机变量的总和,并且适用中心极限定理。随着问题数量的增加,正确问题的比例收敛到正态分布。
您会问一个很好的问题,关于小于0的值。您也可能会问同样的问题,关于大于100%的值。随着测试问题数量的增加,总和的方差减小,因此峰值趋向于平均值。类似地,最佳拟合正态分布将具有较小的方差,并且[0,1]区间之外的pdf权重趋于0,尽管它始终为非零。可能的“分数校正”值之间的间隔也将减小(100个问题为1 / 100,1000个问题为1/1000等),因此非正式地,pdf的行为开始越来越像连续的pdf。