Answers:
分布的(右)尾部以较大值描述其行为。正确的对象来研究是不是它的密度-这在许多实际情况是不存在的-而是它的分布函数。更具体地说,因为对于大参数(根据总概率定律),必须渐近上升到,所以我们对它接近渐近线的速度感兴趣:我们需要研究其生存函数的行为。如。F 1 x 1 − F (x )x → ∞
具体而言,随机变量一个分布比另一个更“重”,条件是最终在大值处的概率比。这可以形式化:必须存在有限个数,使得对于所有,X G F G x 0 x > x 0 Pr F(X > x )= 1 - F (x )> 1 - G (x )= Pr G(X > x )。
该图中的红色曲线是泊松分布的生存函数。蓝色曲线适用于具有相同方差的Gamma分布。最终,蓝色曲线总是超过红色曲线,这表明该Gamma分布的尾部比此Poisson分布更重。这些分布不易使用密度进行比较,因为泊松分布没有密度。(3 )
的确,当密度 和存在和为然后是尾重于。然而,相反的说法是错误的-这是将尾巴重量的定义建立在生存功能而非密度的基础上的一个令人信服的理由,即使通常使用密度可以更轻松地进行尾巴分析。g f (x )> g (x )x > x 0 F G
可以通过采用无穷大的正支持的离散分布构造反示例,但其分布不比重(分散可以解决问题)。通过将的每个支撑点的概率质量写为替换为(例如)按比例的Beta分布并在适当的间隔并由加权。给定一个小的正数选择ģ ģ ħ ķ ħ (ķ )(2 ,2 )[ ķ - ε (ķ ),ķ + ε (ķ )] ħ (ķ )δ ,ε (ķ )˚F (ķ )/ δ δ ħ + (1 - δ )ģ ģ ' G ^ δ ħ ˚F ģ足够小以确保此缩放的Beta分布的峰值密度超过。通过构造,混合物是连续分布其尾部看起来像的尾巴(均匀地小了一个量),但是其峰值在的支持下,所有这些尖峰的点都超过了的密度。因此比轻尾,但是无论我们走到尾部有多远,都会有密度大于。 F F
红色曲线是Gamma分布的PDF,金色曲线是对数正态分布的PDF,蓝色曲线(带有尖峰)是按反例构造的混合物的PDF 。(注意对数密度轴。)的生存函数接近于Gamma分布的生存函数(具有快速衰减的摆动):即使它的PDF总是在其之上尖峰,其最终增长也将小于的不管多远伸到尾巴我们期待。
顺便说一句,我们可以直接对对数正态和Gamma分布的生存函数执行此分析,将它们扩展到以找到其渐近行为,并得出结论,所有对数正态的尾巴都比所有Gammas重。但是,由于这些分布具有“不错的”密度,因此通过显示对于足够大的,对数正态密度超过Gamma密度可以更轻松地进行分析。我们没有,但是,混淆分析的方便与意义沉重的尾巴。X
同样,尽管较高的矩及其变体(例如偏度和峰度)对尾巴有些许影响,但它们并不能提供足够的信息。举一个简单的例子,我们可以将任何对数正态分布截断成一个很大的值,以使其给定数量的矩几乎都不会改变-但是这样做的话,我们将完全消除其尾巴,使其比任何无边界分布更轻尾支持(例如Gamma)。
对这些数学扭曲的一个合理的反对意见是指出,迄今为止的行为没有实际应用,因为没有人会相信任何分布模型在这样的极端(也许是物理上无法达到的)值下都是有效的。但是,这表明,在应用程序中,我们应该格外小心,以找出尾巴的哪个部分值得关注,并据此进行分析。(例如,可以从这种意义上理解洪水复发时间:10年洪水,100年洪水和1000年洪水是洪水分布尾部特定区域的特征。)尽管如此,同样的原理适用:分析的基本目标是分布函数,而不是其密度。
γ和对数正态都是上的右偏斜,不变系数变化分布,它们通常是针对特定现象的“竞争”模型的基础。
有多种方法可以定义尾部的沉重度,但是在这种情况下,我认为所有常规方法都显示对数正态重。(第一人可能一直在谈论的不是发生在最远的尾部,而是发生在模式右侧的那一点(例如,下面第一张图的第75个百分位数左右,对数正态值刚好在5以下)伽玛值刚好高于5。)
但是,让我们以一种非常简单的方式来探讨这个问题。
以下是平均值为4且方差为4的伽玛和对数正态密度(顶部图-伽玛为深绿色,对数正态为蓝色),然后是密度的对数(底部),因此您可以比较尾部的趋势:
在顶部图中很难看到太多细节,因为所有动作都在10的右边。但是在第二图中,它很明显,伽马的下降速度比对数正态快得多。
探索关系的另一种方法是看日志的密度,如答案在这里 ; 我们看到对数正态的对数密度是对称的(这是正常的!),而伽马的对数密度是左偏斜的,右侧为浅尾巴。
我们可以用代数的方式来做,在这里我们可以将密度的比率视为(或比率的对数)。令为伽马密度,对数正态:
[]中的项在是二次项,而其余项在线性减小。无论如何,无论参数值是多少,最终下降的速度都将比平方上升快。在极限,密度比的对数朝减小,这意味着gamma pdf最终比对数正态pdf小得多,并且相对减小。如果您以另一种方式使用该比率(对数正态在顶部),则最终必须将其增加到任何范围之外。
也就是说,任何给定的对数正态最终都比任何伽玛尾部重。
重量的其他定义:
有些人对偏度或峰度感兴趣,以衡量右尾巴的重量。在给定的变化系数下,对数正态比γ更偏斜并且具有更高的峰度。**
例如,具有偏斜度时,伽玛的偏斜度为2CV,而对数正态为3CV + CV。
还有的尾巴如何重,各种措施的一些技术定义在这里。您可能想尝试使用这两个发行版中的一些。在第一个定义中,对数正态是一个有趣的特例-所有矩都存在,但其MGF不会收敛于0以上,而Gamma的MGF确实会收敛在零附近。
-
**正如尼克·考克斯(Nick Cox)在下面提到的那样,通常用于近似伽玛正态的变换,即Wilson-Hilferty变换,比对数要弱,它是立方根变换。在shape参数的值较小时,已经提到了第四个根,而不是参见此答案中的讨论,但是在任何一种情况下,它都很难实现接近正态的变换。
偏度(或峰度)的比较并没有暗示在尾端有任何必要的关系-相反,它告诉我们有关平均行为的一些信息;但由于这个原因,如果原始点不是关于极端尾巴的话可能会更好。
资源:可以轻松使用R或Minitab或Matlab或Excel之类的程序,或者使用您喜欢的任何方式绘制密度和对数密度以及密度比的对数...等等,以查看特定情况下的情况。这就是我建议的开始。
尽管峰度与尾巴的沉重有关,但它将对脂肪尾巴分布的概念做出更大的贡献,而对尾巴沉重本身的贡献相对较小,如以下示例所示。在此,我现在反省我在上下的帖子中所学到的内容,这些都是非常好的评论。首先,右尾的面积是密度函数从x到的面积,也就是生存函数。对于对数正态分布和伽玛分布,让我们比较它们各自的生存函数和。为此,我任意设置它们各自的方差和以及它们各自的多余kurtoses和通过选择等于和求解。由此可见
对数正态分布(LND)的生存函数为蓝色,伽马分布(GD)的生存函数为橙色。这使我们有了第一个警告。也就是说,如果仅是我们要检查的图,我们可能会得出结论:GD的尾部比LND的尾部重。通过扩展绘图的x轴值可以看出情况并非如此,因此
此图显示1)即使使用相同的库尔托斯,LND和GD的右尾区域也可能不同。2)图形解释本身就有危险,因为它只能显示有限范围内固定参数值的结果。因此,需要找到。我无法通过无限级数展开来做到这一点。但是,我能够通过终端或渐近函数的中介来做到这一点,它们不是唯一函数,对于右尾巴,足以满足和相互渐近。通过适当地寻找这些功能,可以识别比生存功能本身更简单的功能的子集,该功能可以与多个密度功能共享或共同使用,例如,两个不同的密度功能可以共享有限的指数尾巴。在本文的先前版本中,这就是我所说的“比较生存函数的复杂性”。请注意,和(顺便说一句,不一定是和。也就是说,没有必要选择一个上限,只需选择一个渐近函数。这里我们写和,其中右手项的比率与限制相同如左手条款。简化右手收益率的限制比例表示对于x足够大,LND尾部区域为不论参数值是多少,与GD尾部区域一样大。这就提出了另一个问题,我们并不总是有适用于所有参数值的解决方案,因此,仅使用图形插图可能会产生误导。例如,伽马分布右尾部面积比指数分布的尾部区域大时,小于指数时和GD是完全的指数分布时。
那么,既然我们显然不需要取对数来求出极限比,那么求生存函数比率的对数又有什么用呢?许多分布函数包含指数项,当采用对数时,它们看起来更简单,并且如果比率随着x的增加而达到极限的无穷大,那么对数也会这样做。在我们的情况下,这将使我们能够检查,有些人会觉得更简单。最后,如果生存函数的比率变为零,则该比率的对数将变为-∞,并且在所有情况下找到比率的对数极限之后,我们都必须采用该值的反对数来了解其与正常生存函数比率极限值的关系。