哪个具有较重的尾巴,对数正态或伽玛?


41

(这是基于一个刚刚通过电子邮件发送给我的问题;我在之前与同一个人的简短对话中添加了一些上下文。)

去年,我被告知伽马分布的尾部比对数正态分布更重,此后我被告知情况并非如此。

  • 重尾?

  • 我可以用来探索这种关系的资源有哪些?


3
对于刚刚投反对票的人:了解问题的感知问题将很有用。
Glen_b

1
不是我,我很久以前就投票了。但是,我怀疑这是在存在异常值的情况下进行t检验假设的情况下,重尾与峰度的效用,这与您的要求绝对无关。恕我直言,拒绝投票是有问题的
卡尔,

Answers:


41

分布的(右)尾部以较大值描述其行为。正确的对象来研究是不是它的密度-这在许多实际情况是不存在的-而是它的分布函数。更具体地说,因为对于大参数(根据总概率定律),必须渐近上升到,所以我们对它接近渐近线的速度感兴趣:我们需要研究其生存函数的行为。F 1 x 1 F x x FF1x 1F(x)x

具体而言,随机变量一个分布比另一个更“重”,条件是最终在大值处的概率比。这可以形式化:必须存在有限个数,使得对于所有,X G F G x 0 x > x 0 Pr FX > x = 1 - F x > 1 - G x = Pr GX > x FXG FGx0x>x0

PrF(X>x)=1F(x)>1G(x)=PrG(X>x).

数字

该图中的红色曲线是泊松分布的生存函数。蓝色曲线适用于具有相同方差的Gamma分布。最终,蓝色曲线总是超过红色曲线,这表明该Gamma分布的尾部比此Poisson分布更重。这些分布不易使用密度进行比较,因为泊松分布没有密度。3 (3)(3)

的确,当密度 和存在和为然后是尾重于。然而,相反的说法是错误的-这是将尾巴重量的定义建立在生存功能而非密度的基础上的一个令人信服的理由,即使通常使用密度可以更轻松地进行尾巴分析。g f x > g x x > x 0 F Gfgf(x)>g(x)x>x0FG

可以通过采用无穷大的正支持的离散分布构造反示例,但其分布不比重(分散可以解决问题)。通过将的每个支撑点的概率质量写为替换为(例如)按比例的Beta分布并在适当的间隔并由加权。给定一个小的正数选择ģ ģ ħ ķ ħ ķ 2 2 [ ķ - ε ķ ķ + ε ķ ] ħ ķ δ ε ķ ˚F ķ / δ δ ħ + 1 - δ ģ ģ ' G ^ δ ħ ˚F ģHGGHkh(k)(2,2)[kε(k),k+ε(k)]h(k)δ,ε(k)足够小以确保此缩放的Beta分布的峰值密度超过。通过构造,混合物是连续分布其尾部看起来像的尾巴(均匀地小了一个量),但是其峰值在的支持下,所有这些尖峰的点都超过了的密度。因此比轻尾,但是无论我们走到尾部有多远,都会有密度大于。f(k)/δδH+(1δ)GGGδHf F FGFF

数字

红色曲线是Gamma分布的PDF,金色曲线是对数正态分布的PDF,蓝色曲线(带有尖峰)是按反例构造的混合物的PDF 。(注意对数密度轴。)的生存函数接近于Gamma分布的生存函数(具有快速衰减的摆动):即使它的PDF总是在其之上尖峰,其最终增长也将小于的不管多远伸到尾巴我们期待。GFGGFF


讨论区

顺便说一句,我们可以直接对对数正态和Gamma分布的生存函数执行此分析,将它们扩展到以找到其渐近行为,并得出结论,所有对数正态的尾巴都比所有Gammas重。但是,由于这些分布具有“不错的”密度,因此通过显示对于足够大的,对数正态密度超过Gamma密度可以更轻松地进行分析。我们没有,但是,混淆分析的方便与意义沉重的尾巴。Xx=x

同样,尽管较高的矩及其变体(例如偏度和峰度)对尾巴有些许影响,但它们并不能提供足够的信息。举一个简单的例子,我们可以将任何对数正态分布截断成一个很大的值,以使其给定数量的矩几乎都不会改变-但是这样做的话,我们将完全消除其尾巴,使其比任何无边界分布更轻尾支持(例如Gamma)。

对这些数学扭曲的一个合理的反对意见是指出,迄今为止的行为没有实际应用,因为没有人会相信任何分布模型在这样的极端(也许是物理上无法达到的)值下都是有效的。但是,这表明,在应用程序中,我们应该格外小心,以找出尾巴的哪个部分值得关注,并据此进行分析。(例如,可以从这种意义上理解洪水复发时间:10年洪水,100年洪水和1000年洪水是洪水分布尾部特定区域的特征。)尽管如此,同样的原理适用:分析的基本目标是分布函数,而不是其密度。


6
+1关于为何应基于幸存者功能的出色讨论。我建议问题的原始来源,他们应该看看您的答复。
Glen_b 2014年

1
(+1)关于如何解释生存功能的良好概率讨论。

作为一个定义,粗尾的定义很好。但是它有严重的问题。特别是,存在有可能具有较重尾巴的有界分布,例如.9999 * U(-1,1)+ .0001 * U(-1000,1000)分布。通过给出的“定义”,N。(0,1)分布的尾部比.9999 * U(-1,1)+ .0001 * U(-1000,1000)的尾部重。这显然是愚蠢的。让我们面对现实:有很多方法可以测量分布的拖尾性。
Peter Westfall

1
@Peter之所以出现“愚蠢”,是因为您似乎已经把想法弄反了。您的示例都没有任何意义的“沉重”尾巴,因为它们是有界的。最终,两个生存函数都完全为零,因此两条尾巴都同样轻。
whuber

1
@PeterWestfall您已经将有限支持的尾巴与无限支持的尾巴进行了比较,好像那是有意义的。在许多情况下,这是不必要甚至愚蠢的。在那些将它们进行比较的情况下,分位数差异比可能是合适的。除此以外,没有太多其他背景了,如果您能想到一个,那就一定要说出来。
卡尔

30

γ和对数正态都是上的右偏斜,不变系数变化分布,它们通常是针对特定现象的“竞争”模型的基础。(0,)

有多种方法可以定义尾部的沉重度,但是在这种情况下,我认为所有常规方法都显示对数正态重。(第一人可能一直在谈论的不是发生在最远的尾部,而是发生在模式右侧的那一点(例如,下面第一张图的第75个百分位数左右,对数正态值刚好在5以下)伽玛值刚好高于5。)

但是,让我们以一种非常简单的方式来探讨这个问题。

以下是平均值为4且方差为4的伽玛和对数正态密度(顶部图-伽玛为深绿色,对数正态为蓝色),然后是密度的对数(底部),因此您可以比较尾部的趋势:

在此处输入图片说明

在顶部图中很难看到太多细节,因为所有动作都在10的右边。但是在第二图中,它很明显,伽马的下降速度比对数正态快得多。

探索关系的另一种方法是看日志的密度,如答案在这里 ; 我们看到对数正态的对数密度是对称的(这是正常的!),而伽马的对数密度是左偏斜的,右侧为浅尾巴。

我们可以用代数的方式来做,在这里我们可以将密度的比率视为(或比率的对数)。令为伽马密度,对数正态:xgf

log(g(x)/f(x))=log(g(x))log(f(x))

=log(1Γ(α)βαxα1ex/β)log(12πσxe(log(x)μ)22σ2)

=k1(α1)log(x)x/β(k2log(x)(log(x)μ)22σ2)

=[c(α2)log(x)+(log(x)μ)22σ2]x/β

[]中的项在是二次项,而其余​​项在线性减小。无论如何,无论参数值是多少,最终下降的速度都将比平方上升快。在极限,密度比的对数朝减小,这意味着gamma pdf最终比对数正态pdf小得多,并且相对减小。如果您以另一种方式使用该比率(对数正态在顶部),则最终必须将其增加到任何范围之外。log(x)xx/βx

也就是说,任何给定的对数正态最终都比任何伽玛尾部重。


重量的其他定义:

有些人对偏度或峰度感兴趣,以衡量右尾巴的重量。在给定的变化系数下,对数正态γ更偏斜并且具有更高的峰度。**

例如,具有偏斜度时,伽玛的偏斜度为2CV,而对数正态为3CV + CV。3

还有的尾巴如何重,各种措施的一些技术定义在这里。您可能想尝试使用这两个发行版中的一些。在第一个定义中,对数正态是一个有趣的特例-所有矩都存在,但其MGF不会收敛于0以上,而Gamma的MGF确实会收敛在零附近。

-

**正如尼克·考克斯(Nick Cox)在下面提到的那样,通常用于近似伽玛正态的变换,即Wilson-Hilferty变换,比对数要弱,它是立方根变换。在shape参数的值较小时,已经提到了第四个根,而不是参见此答案中的讨论,但是在任何一种情况下,它都很难实现接近正态的变换。

偏度(或峰度)的比较并没有暗示在尾端有任何必要的关系-相反,它告诉我们有关平均行为的一些信息;但由于这个原因,如果原始点不是关于极端尾巴的话可能会更好。


资源:可以轻松使用R或Minitab或Matlab或Excel之类的程序,或者使用您喜欢的任何方式绘制密度和对数密度以及密度比的对数...等等,以查看特定情况下的情况。这就是我建议的开始。


4
确实的确表明了这一点,但在峰度,重尾和峰度之间没有必要的联系。对于这种期望有反例,因此我们必须提防。第二个情节证实了这种怀疑。
Glen_b 2014年

5
这是一线。这是一个定义,需要对数转换才能使对数法线正常。很好的近似值是立方根使伽玛法线正常(Wilson-Hilferty是明智的两个词);与正态分布或高斯分布相比,需要更强变换的分布“更远”。
尼克·考克斯

2
@Glen_b我只是在您的蛋糕上添加一些装饰。
尼克·考克斯

2
@Nick Cox我不同意关于转换的陈述。在数学上不合理的部分是您尝试得出的结论:从对数使对数正态成为法线,而立方根使伽马近似成正态这一事实,您无法对任何一个的尾部得出任何结论。
whuber

2
谢谢; 您的观点对我来说很清楚,但是我坚持我的“经验法则”措辞,并且也引用经验。显然,我没有定理。
尼克·考克斯

7

尽管峰度与尾巴的沉重有关,但它将对脂肪尾巴分布的概念做出更大的贡献,而对尾巴沉重本身的贡献相对较小,如以下示例所示。在此,我现在反省我在上下的帖子中所学到的内容,这些都是非常好的评论。首先,右尾的面积是密度函数从x到的面积,也就是生存函数。对于对数正态分布和伽玛分布f(x)1F(t)e(log(x)μ)22σ22πσx;x0βαxα1eβxΓ(α);x0,让我们比较它们各自的生存函数和。为此,我任意设置它们各自的方差和以及它们各自的多余kurtoses和通过选择等于和求解。由此可见12erfc(log(x)μ2σ)Q(α,βx)=Γ(α,βx)Γ(α)(eσ21)e2μ+σ2αβ23e2σ2+2e3σ2+e4σ266αμ=0,σ=0.8α0.19128,β0.3354211-F(x),蓝色表示LND,橙色表示GD

对数正态分布(LND)的生存函数为蓝色,伽马分布(GD)的生存函数为橙色。这使我们有了第一个警告。也就是说,如果仅是我们要检查的图,我们可能会得出结论:GD的尾部比LND的尾部重。通过扩展绘图的x轴值可以看出情况并非如此,因此 LND和GD较长图的1-F(x)

此图显示1)即使使用相同的库尔托斯,LND和GD的右尾区域也可能不同。2)图形解释本身就有危险,因为它只能显示有限范围内固定参数值的结果。因此,需要找到。我无法通过无限级数展开来做到这一点。但是,我能够通过终端或渐近函数的中介来做到这一点,它们不是唯一函数,对于右尾巴,足以满足和limxS(LND,x)S(GD,x)limxF(x)G(x)=1F(x)G(x)相互渐近。通过适当地寻找这些功能,可以识别比生存功能本身更简单的功能的子集,该功能可以与多个密度功能共享或共同使用,例如,两个不同的密度功能可以共享有限的指数尾巴。在本文的先前版本中,这就是我所说的“比较生存函数的复杂性”。请注意,和(顺便说一句,不一定是和limuerfc(u)eu2πu=1limuΓ(α,u)euuα1=1erfc(u)<eu2πuΓ(α,u)<euuα1。也就是说,没有必要选择一个上限,只需选择一个渐近函数。这里我们写和,其中右手项的比率与限制相同如左手条款。简化右手收益率的限制比例12erfc(log(x)μ2σ)<e(log(x)μ2σ)22(π(log(x)μ))2σΓ(α,βx)Γ(α)<eβx(βx)α1Γ(α)xlimxσΓ(α)(βx)1αeβx(μlog(x))22σ22π(log(x)μ)=表示对于x足够大,LND尾部区域为不论参数值是多少,与GD尾部区域一样大。这就提出了另一个问题,我们并不总是有适用于所有参数值的解决方案,因此,仅使用图形插图可能会产生误导。例如,伽马分布右尾部面积比指数分布的尾部区域大时,小于指数时和GD是完全的指数分布时。α<1α>1α=1

那么,既然我们显然不需要取对数来求出极限比,那么求生存函数比率的对数又有什么用呢?许多分布函数包含指数项,当采用对数时,它们看起来更简单,并且如果比率随着x的增加而达到极限的无穷大,那么对数也会这样做。在我们的情况下,这将使我们能够检查,有些人会觉得更简单。最后,如果生存函数的比率变为零,则该比率的对数将变为-limx(log(σΓ(α)(βx)1α2π(log(x)μ))+βx(μlog(x))22σ2)=,并且在所有情况下找到比率的对数极限之后,我们都必须采用该值的反对数来了解其与正常生存函数比率极限值的关系。


2
在这种情况下(通常在感兴趣的情况下),峰度越高,尾巴越重,但一般情况并非如此-反例很容易构建。
Glen_b

1
1.除了直接比较尾巴,我不知道有任何一般的方法。2.更复杂的是什么?Whuber的答案向我们展示了为什么除了幸存者功能(对于右尾巴)以外的任何东西都存在问题;他讨论了为什么您无法详细比较pdf,但是类似的观点会影响峰度。此外,比较通常也比比较峰度复杂得多。(在左尾巴中,您可以直接比较,但这不是此问题的问题。)F x S(x)=1F(x)F(x)
Glen_b 2015年

2
我还注意到您说:“这与矩定理有关,矩定理说,如果(所有?)两个分布的矩相等,则分布是相同的。” -即使两个分布的所有矩相等,分布也不一定相同。在此处有关CV的几个问题的答案中讨论了反例。你需要更多的不仅仅是所有时刻等于-你需要的MGF在0附近存在
Glen_b

1
@PeterWestfall通常假定半无限支持,例如,血浆中药物浓度为。在那种情况下,尾巴的沉重将决定药物在体内的平均停留时间是否能测量任何东西(例如,指数分布)或(例如,某些帕累托分布)。0t<
卡尔

1
@PeterWestfall我明白你的意思,类似于nma.berkeley.edu/ark:/28722/bk000471p7j。有必要回顾一下,每个分布都意味着针对不同事物的不同度量。例如,对于均匀分布的位置,平均极值是MVUE,而不是平均值,而不是中位数。在这些极值之间,尾巴很重,但是在它们的外部,尾巴都是拉链。当第一时间不是MVUE时,与峰度之类的更高时刻有什么关系,我不会冒险猜测。也许有什么,但是什么?
卡尔,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.