对分布均值的瞬间有直觉吗?


13

有人可以提供一个直觉来解释为什么概率分布的较高矩(如第三和第四矩)分别对应于偏度和峰度吗?具体来说,为什么对三次方或三次方的均值方差最终转化为偏度和峰度的量度?有没有办法将此与函数的三阶或四阶导数联系起来?pX

考虑偏度和峰度的以下定义:

Skewness(X)=E[(XμX)3]/σ3,Kurtosis(X)=E[(XμX)4]/σ4.

在这些方程式中,我们将归一化值提升至幂,并采用其期望值。我不清楚为什么将标准化随机变量提高到4的幂会产生“峰值”,或者为什么将标准化随机变量提高到3的幂会带来“偏斜”。这似乎是神奇而神秘的!(Xμ)/σ


4
我对歪斜的直觉是要注意,三次方保留了负数。因此,如果与均值相比,负均值的负偏差更大(非常简单),那么最终将得到负偏斜分布。我对峰度的直觉是,第四次方比第二次方大得多。这就是为什么我们将峰度视为衡量分布的尾部有多胖的一种原因。请注意,x从均值mu的极大可能性被提高到第四次幂,这使它们被放大而忽略了正负号。
wolfsatthedoor 2014年


1
由于四次幂受离群值的影响远大于一阶幂,因此,我希望您只看第四次中位数就不会有多大好处-至少在稳健性是目标的情况下。
Glen_b-恢复莫妮卡2014年

1
首先,请注意,这些较高的力矩不一定是对不对称性/峰值的良好/可靠度量。就是说,我认为光束在前三个时刻具有良好的物理直觉,例如均值= 光束平衡/比例,方差= 悬臂弯曲,偏度= 跷跷板
GeoMatt22 2016年

1
没错,将峰度解释为测量“峰度” 神奇而神秘的。那是因为那根本不是真的。峰态绝对不会告诉您有关峰顶的任何信息。它仅测量尾巴(离群值)。从数学上很容易证明,无论峰是平坦的,尖峰的,双峰的,正弦的或钟形的,峰附近的观测值对峰度测量值的贡献都很小。
Peter Westfall

Answers:


7

这些定义有充分的理由,当您查看标准形式的标准化随机变量时,这一点将变得更加清晰。要回答这个问题,首先考虑第个标准化中心矩的一般形式:n

ϕn=E[(XE[X]S[X])n ].

前两个标准化中心矩是值和,它们适用于定义了上述数量的所有分布。因此,我们可以考虑值发生的非平凡的标准化中心矩。为了便于分析,我们定义:ϕ1=0ϕ2=1n3

ϕn+=E[|XE[X]S[X]|n |X>E[X]]P(X>E[X]),ϕn=E[|XE[X]S[X]|n |X<E[X]]P(X<E[X]).

这些是非负的数量,以标准化随机变量的第个绝对幂为条件,该变量的期望值高于或低于期望值。现在,我们将标准化的中心矩分解为这些部分。n


奇数值测量尾部的偏斜:n对于数值,我们在矩方程中具有奇次幂,因此我们可以将标准化的中心矩写为。从这种形式可以看出,标准化中心矩为我们提供了标准化随机变量的第个绝对幂之间的差,条件是该变量分别大于或小于其均值。n3ϕn=ϕn+ϕnn

因此,对于任何奇数幂,如果标准化随机变量的期望绝对幂对于高于均值的值比对于低于均值的值更高,则将得到一个正值;如果期望高于平均值的值的绝对功率低于低于平均值的值的绝对功率。这些量中的任何一个都可以合理地视为一种“偏度”的量度,较高的幂赋予远离均值的值更大的相对权重。n3

由于每个奇数幂都会出现此现象,因此原型度量“偏斜度”的自然选择是将定义为偏斜度。这是比较高奇数功率低的标准化中心矩,并且在考虑高阶矩之前先探索低阶矩是很自然的。在统计中,我们采用了将该标准化中心矩称为偏斜的惯例,因为它是衡量分布的这一方面的最低标准中心矩。(较高的奇数幂也可以测量偏度的类型,但是越来越重视远离均值的值。)n3ϕ3


偶数表示尾部的脂肪:n对于任何偶数,我们在矩方程中具有偶数幂,因此我们可以将标准化中心矩写为。从这种形式我们可以看到,标准化中心矩给我们标准化随机变量的第个绝对幂之和,条件是该变量分别高于或低于其均值。n3ϕn=ϕn++ϕnn

因此,对于任何偶数幂我们将获得一个给出非负值的度量,如果标准化随机变量的分布的尾部更胖,则会出现更高的值。注意,这是相对于标准化随机变量的结果,因此,尺度变化(改变方差)对该度量没有影响。相反,在对分布的变化进行标准化之后,它可以有效地测量尾巴的脂肪。这些量中的任何一个都可以合理地视为“峰度”类型的量度,其中较高的幂赋予远离均值的值更大的相对权重。n3

由于这种现象对于每个偶数幂都会发生,因此峰度的原型度量的自然选择是将定义为峰度。这是一个比较高偶数幂更低的标准化中心矩,并且在考虑高阶矩之前先探究低阶矩是很自然的。在统计中,我们采用了将此标准化中心矩称为“峰度”的惯例,因为它是衡量分布的这一方面的最低标准化中心矩。(较高的偶数幂也可以衡量峰度的类型,但是越来越重视远离均值的值。)n3ϕ4


对于存在前两个矩且具有非零方差的任何分布,均可以很好地定义此方程式。在其余的分析中,我们将假定兴趣的分配属于此类。


2

类似的问题关于概率分布的“时刻”的“时刻”是什么?我对所讨论的问题做出了实际的回答

“角加速度是角速度的导数,角速度是时间相对于角的导数,即。考虑到第二力矩类似于施加到圆周运动上的扭矩,或者如果您要对该圆周运动(即,角度,)进行加速/减速(也是二阶导数),类似地,第三力矩将是转矩的变化率,依此类推,在更高的时刻等等,以使变化率的变化率也随变化率变化,即圆周运动的顺序导数……”dωdt=α,dθdt=ωθ

查看链接,因为使用物理示例可能更容易将其可视化。

偏斜比峰度更容易理解。负偏度是比右偏重的左尾(或负偏远的方向),而正偏则相反。

Wikipedia引用Westfall(2014)的观点,暗示峰度高要么是由于离群值远的随机变量,要么是具有一两个粗尾的密度函数,同时声称任何数据或密度的集中趋势对峰度值的影响相对较小。峰度值低意味着相反,即缺少轴异常值和两条尾巴的相对亮度。x


偏度是 pdf的平衡点,峰度是 pdf的平衡点。两种转换都“拉伸”了尾巴,峰度更多。如果将支点置于0时的pdf 降到右侧,则原始分布中存在正偏斜。如果将支点置于3.0时的pdf 降到右侧,则原始分布的尾部比正态分布重。在这里,“尾巴的沉重”更确切地说是指杠杆作用而不是质量。摩尔人的解释都不太正确,因为他们都提到“集中度”。Z3Z4Z3Z4
彼得·韦斯特伦

@PeterWestfall我同意摩尔人的解释是不完善的。在不引起混淆的情况下,很难轻松实现精确的语言。以“杠杆”为例。杠杆意味着第一刻,而第二刻就不得不发明“杠杆杠杆”之类的东西,这可能会比阐明问题更多。您的方法似乎发明了一个新颖的概念,即“拉伸杠杆”,它暗示了几何变换,为此人们可能还声称,一些主张它是自洽的拥护者也冒着争议,而对其他人则不具物理性。
卡尔,

“杠杆”是指变量的第一矩,其中。这不是火箭科学。UU=Z4
彼得·韦斯特伦

@PeterWestfall不必太讲究,但是您正在利用杠杆作用。当然,您仍然可以使用单词,并且如果不是第四维对象,那么与一维距离,它甚至可能是有用的。这里的内容是瞬间,并为瞬间创建物理模型。有几种方法可以完成,例如,在此处查看我的回答。换句话说,要将时刻带入任何物理环境,我们要做的不只是挥舞和援引第四维度。Z4Z
卡尔,

@PeterWestfall在圆周运动的情况下,我们将第二力矩称为扭矩,而不是的杠杆作用,后者虽然不是错误的,但并没有引起人们的注意。Z2
卡尔,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.