有人可以提供一个直觉来解释为什么概率分布的较高矩(如第三和第四矩)分别对应于偏度和峰度吗?具体来说,为什么对三次方或三次方的均值方差最终转化为偏度和峰度的量度?有没有办法将此与函数的三阶或四阶导数联系起来?
考虑偏度和峰度的以下定义:
在这些方程式中,我们将归一化值提升至幂,并采用其期望值。我不清楚为什么将标准化随机变量提高到4的幂会产生“峰值”,或者为什么将标准化随机变量提高到3的幂会带来“偏斜”。这似乎是神奇而神秘的!
有人可以提供一个直觉来解释为什么概率分布的较高矩(如第三和第四矩)分别对应于偏度和峰度吗?具体来说,为什么对三次方或三次方的均值方差最终转化为偏度和峰度的量度?有没有办法将此与函数的三阶或四阶导数联系起来?
考虑偏度和峰度的以下定义:
在这些方程式中,我们将归一化值提升至幂,并采用其期望值。我不清楚为什么将标准化随机变量提高到4的幂会产生“峰值”,或者为什么将标准化随机变量提高到3的幂会带来“偏斜”。这似乎是神奇而神秘的!
Answers:
这些定义有充分的理由,当您查看标准形式的标准化随机变量时,这一点将变得更加清晰。要回答这个问题,首先考虑第个标准化中心矩的一般形式:†
前两个标准化中心矩是值和,它们适用于定义了上述数量的所有分布。因此,我们可以考虑值发生的非平凡的标准化中心矩。为了便于分析,我们定义:
这些是非负的数量,以标准化随机变量的第个绝对幂为条件,该变量的期望值高于或低于期望值。现在,我们将标准化的中心矩分解为这些部分。
奇数值测量尾部的偏斜:对于数值,我们在矩方程中具有奇次幂,因此我们可以将标准化的中心矩写为。从这种形式可以看出,标准化中心矩为我们提供了标准化随机变量的第个绝对幂之间的差,条件是该变量分别大于或小于其均值。
因此,对于任何奇数幂,如果标准化随机变量的期望绝对幂对于高于均值的值比对于低于均值的值更高,则将得到一个正值;如果期望高于平均值的值的绝对功率低于低于平均值的值的绝对功率。这些量中的任何一个都可以合理地视为一种“偏度”的量度,较高的幂赋予远离均值的值更大的相对权重。
由于每个奇数幂都会出现此现象,因此原型度量“偏斜度”的自然选择是将定义为偏斜度。这是比较高奇数功率低的标准化中心矩,并且在考虑高阶矩之前先探索低阶矩是很自然的。在统计中,我们采用了将该标准化中心矩称为偏斜的惯例,因为它是衡量分布的这一方面的最低标准中心矩。(较高的奇数幂也可以测量偏度的类型,但是越来越重视远离均值的值。)
偶数表示尾部的脂肪:对于任何偶数,我们在矩方程中具有偶数幂,因此我们可以将标准化中心矩写为。从这种形式我们可以看到,标准化中心矩给我们标准化随机变量的第个绝对幂之和,条件是该变量分别高于或低于其均值。
因此,对于任何偶数幂我们将获得一个给出非负值的度量,如果标准化随机变量的分布的尾部更胖,则会出现更高的值。注意,这是相对于标准化随机变量的结果,因此,尺度变化(改变方差)对该度量没有影响。相反,在对分布的变化进行标准化之后,它可以有效地测量尾巴的脂肪。这些量中的任何一个都可以合理地视为“峰度”类型的量度,其中较高的幂赋予远离均值的值更大的相对权重。
由于这种现象对于每个偶数幂都会发生,因此峰度的原型度量的自然选择是将定义为峰度。这是一个比较高偶数幂更低的标准化中心矩,并且在考虑高阶矩之前先探究低阶矩是很自然的。在统计中,我们采用了将此标准化中心矩称为“峰度”的惯例,因为它是衡量分布的这一方面的最低标准化中心矩。(较高的偶数幂也可以衡量峰度的类型,但是越来越重视远离均值的值。)
对于存在前两个矩且具有非零方差的任何分布,均可以很好地定义此方程式。在其余的分析中,我们将假定兴趣的分配属于此类。
类似的问题关于概率分布的“时刻”的“时刻”是什么?我对所讨论的问题做出了实际的回答。
“角加速度是角速度的导数,角速度是时间相对于角的导数,即。考虑到第二力矩类似于施加到圆周运动上的扭矩,或者如果您要对该圆周运动(即,角度,)进行加速/减速(也是二阶导数),类似地,第三力矩将是转矩的变化率,依此类推,在更高的时刻等等,以使变化率的变化率也随变化率变化,即圆周运动的顺序导数……”
查看链接,因为使用物理示例可能更容易将其可视化。
偏斜比峰度更容易理解。负偏度是比右偏重的左尾(或负偏远的方向),而正偏则相反。
Wikipedia引用Westfall(2014)的观点,暗示峰度高要么是由于离群值远的随机变量,要么是具有一两个粗尾的密度函数,同时声称任何数据或密度的集中趋势对峰度值的影响相对较小。峰度值低意味着相反,即缺少轴异常值和两条尾巴的相对亮度。