负偏度分布的真实示例


20

受到“ 常见分布的真实示例 ”的启发,我想知道人们使用哪些教学示例来显示负偏度?教学中使用了许多对称或正态分布的“规范”示例-即使身高和体重这样的分布无法通过更严格的生物学检查而幸免!血压可能接近正常。我喜欢天文学的测量误差-具有历史意义,从直觉上讲,它们不太可能朝一个方向倾斜,而小的误差比大的误差更大。

关于正偏度的常见教学示例包括人们的收入。待售二手车的里程;心理学实验中的反应时间;房价 保险客户的事故索赔数量;一个家庭中孩子的数量。它们的物理合理性通常源于低于(通常为零)的界限,低值是合理的,甚至很常见,但众所周知,却会出现很大的值(有时高出几个数量级)。

对于负偏斜,我发现很难给出年轻观众(高中生)可以直观理解的清晰生动的示例,这也许是因为较少的现实生活分布具有明确的上限。我在学校教的一个不好的例子是“手指数”。大多数人有十个人,但有些人在一次事故中丧生一个或多个。结果是“ 99%的人的手指数高于平均数”!多义性使问题复杂化,因为十不是严格的上限。由于缺少手指和多余手指都是罕见的事件,因此对于学生可能尚不清楚哪个影响占主导地位。

我通常使用高的二项式分布。但是,学生通常会发现“一批中令人满意的组件数量出现负偏斜”不如“一批中的故障组件数量呈正偏斜”这一补充事实那么直观。(这本教科书是工业主题的;我更喜欢在十二个盒子中装满裂纹和完整的鸡蛋。)也许学生觉得“成功”应该很少见。p

另一个选择是指出,如果呈正偏,则呈负偏,但将其置于实际情况下(“负房价呈负偏”)似乎注定会导致教学上的失败。虽然教数据转换的效果是有好处的,但首先给出一个具体的例子似乎是明智的。我更喜欢一个似乎不是人为的,负偏斜非常明确,并且学生的生活经历应该使他们意识到分布形状的人。XX-X


4
否定变量并不意味着“教学上的失败”,这是显而易见的,因为可以选择添加一个常量而不更改分布的形状。例如,许多偏斜的分布都涉及比例,而互补比例通常与原始比例一样自然且易于解释。即使使用房价,也可能会对值感兴趣,其中是该地区的最高房价。这并不难理解。还可以考虑使用对数和负功率转换来创建负偏斜。1 - X X C - X CX1XXCXC
ub

2
我同意,就房价而言,会有些许人为。但是不会:“每1美元可以购买的房屋数量”。我怀疑在任何合理的均质区域中,这都会产生强烈的负偏斜。这样的例子可以更深的教训,偏度是我们如何表达数据的函数。1 / XC-X1个/X
ub

3
@whuber根本不会有人为。市场中的最高和最低潜在价格自然会随着反映市场参与者不同评估的价格而出现。在购买者中,可以想象有一个愿意为给定房屋支付最高价格的人。在卖方中,有一种可以接受最低价格。但是此信息不是公开的,因此实际观察到的交易价格会受到不完整信息的影响。(

1
续... Kumbhakar和Parmeter(2010)的以下论文对此模型进行了精确建模(也允许对称情况),并在房屋市场上得到了应用:link.springer.com/article/10.1007/s00181-009 -0292-8#page-1
Alecos Papadopoulos

3
在发达国家,死亡年龄是不利的。
Nick Cox 2014年

Answers:


3

在英国,一本书的价格。这里有一个“建议零售价”,通常是模式价,实际上您无须支付更多。但是有些商店会打折,有些商店会打折。

另外,退休年龄。大多数人在65-68岁退休,这是国家退休金生效的时候,很少有人工作更长的时间,但是有些人在50多岁时退休,在60多岁时退休了很多。

然后,人们得到的GCSE数量也随之增加。大多数孩子输入8-10,所以得到8-10。少数可以做更多。有些孩子虽然没有通过所有考试,所以从0稳定增长到7。


1
这也许需要解释一下,GCSE是英国中学和一些相关系统中的考试,最常在16岁左右参加。数量是所选科目,例如,数学通常是一门科目。
尼克·考克斯

18

尼克·考克斯(Nick Cox)准确地评论说:“发达国家的死亡年龄受到不利影响”,我认为这是一个很好的例子。

我发现最方便的数据来自澳大利亚统计局(尤其是我使用了这张Excel表),因为他们的年龄段可以达到100岁,而年龄最大的澳大利亚男性是111岁,所以我在110岁时将最后一个垃圾箱割掉感到很自在。其他国家统计机构似乎常常停在95,这使得最终垃圾箱的宽度令人不适。所得的直方图显示出非常明显的负偏斜,以及其他一些有趣的特征,例如年幼儿童中死亡率的小峰值,非常适合课堂讨论和解释。

2012年澳大利亚男性死亡年龄

紧随HistogramTools 其后的是带有原始数据的R代码,事实证明该软件包对于基于汇总数据的绘图非常有用!感谢这个StackOverflow问题来进行标记。

library(HistogramTools)

deathCounts <- c(565, 116, 69, 78, 319, 501, 633, 655, 848, 1226, 1633, 2459, 3375, 4669, 6152, 7436, 9526, 12619, 12455, 7113, 2104, 241)
ageBreaks <- c(0, 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110)

myhist <- PreBinnedHistogram(
    breaks = ageBreaks,
    counts = deathCounts,
    xname = "Age at Death of Australian Males, 2012")
plot(myhist)

2
与这篇文章有些相关,我听说退休年龄有负偏斜:大多数人退休的年龄都接近正常年龄(在许多国家是65岁或67岁),但有些人(例如煤矿工人)退休的时间要早​​得多。
Christoph Hanck

死亡年龄是否根据经验遵循某些已知分布?
StubbornAtom

11

以下是四十名运动员的结果,这些运动员成功完成了2012年奥运会男子跳远比赛资格赛的合法跳伞,下面是地毯状的内核密度图。

伦敦2012奥运会男子跳远资格赛结果

领先主要竞争对手落后一米远比领先一米要容易得多,这可以解释负偏斜。

我怀疑最顶端的一些起皱是由于运动员的目标资格(要求获得前十二名的成绩或8.10米或以上的成绩),而不是达到了最长的距离。前两名成绩为8.11米,略高于自动排位赛的事实,这很有力地暗示了这一点,总决赛中获得奖牌的跳越更长,越分散,分别达到8.31、8.16和8.12米。决赛的结果出现了轻微的,不重大的负偏差。

为了进行比较,heptathlonR包中的数据集中提供了1988年汉城奥运会七项全能的结果HSAUR。在那场比赛中,没有预选赛,但是每项赛事都为最终的决赛做出了贡献。女子跳高运动员在跳高结果中表现出明显的负偏斜,而在跳远过程中则表现出负偏斜。有趣的是,即使在投掷事件(铅球和标枪)中,数字也是较高的结果,这种情况并未得到重复。最终分数也有所偏斜。

数据和代码

require(moments)
require(ggplot2)

sourceAddress <- "http://www.olympic.org/olympic-results/london-2012/athletics/long-jump-m"

longjump.df <- read.csv(header=TRUE, sep=",", text="
rank,name,country,distance
1,Mauro Vinicius DA SILVA,BRA,8.11 
2,Marquise GOODWIN,USA,8.11
3,Aleksandr MENKOV,RUS,8.09
4,Greg RUTHERFORD,GBR,8.08
5,Christopher TOMLINSON,GBR,8.06
6,Michel TORNEUS,SWE,8.03
7,Godfrey Khotso MOKOENA,RSA,8.02
8,Will CLAYE,USA,7.99
9,Mitchell WATT,AUS,7.99,
10,Tyrone SMITH,BER,7.97,
11,Henry FRAYNE,AUS,7.95,
12,Sebastian BAYER,GER,7.92,
13,Christian REIF,GER,7.92,
14,Eusebio CACERES,ESP,7.92,
15,Aleksandr PETROV,RUS,7.89,
16,Sergey MORGUNOV,RUS,7.87,
17,Mohammad ARZANDEH,IRI,7.84,
18,Ignisious GAISAH,GHA,7.79,
19,Damar FORBES,JAM,7.79,
20,Jinzhe LI,CHN,7.77,
21,Raymond HIGGS,BAH,7.76,
22,Alyn CAMARA,GER,7.72,
23,Salim SDIRI,FRA,7.71,
24,Ndiss Kaba BADJI,SEN,7.66,
25,Arsen SARGSYAN,ARM,7.62,
26,Povilas MYKOLAITIS,LTU,7.61,
27,Stanley GBAGBEKE,NGR,7.59,
28,Marcos CHUVA,POR,7.55,
29,Louis TSATOUMAS,GRE,7.53,
30,Stepan WAGNER,CZE,7.50,
31,Viktor KUZNYETSOV,UKR,7.50,
32,Luis RIVERA,MEX,7.42,
33,Ching-Hsuan LIN,TPE,7.38,
33,Supanara SUKHASVASTI N A,THA,7.38,
35,Boleslav SKHIRTLADZE,GEO,7.26,
36,Xiaoyi ZHANG,CHN,7.25,
37,Mohamed Fathalla DIFALLAH,EGY,7.08,
38,Roman NOVOTNY,CZE,6.96,
39,George KITCHENS,USA,6.84,
40,Vardan PAHLEVANYAN,ARM,6.55,
NA,Luis MELIZ,ESP,NA,
NA,Irving SALADINO,PAN,NA")

roundedSkew <- signif(skewness(longjump.df$distance, na.rm=TRUE), 3)

ggplot(longjump.df, aes(x=distance)) + 
    xlab("Distance in metres") +
    ggtitle("London 2012 Men's Long Jump qualifying round results") +
    geom_rug(size=0.8) + 
    geom_density(fill="steelblue") +
    annotate("text", x=7.375, y=0.0625, colour="white", label=paste("Source:", sourceAddress), size=3) +
    annotate("rect", xmin = 6.25, xmax = 7.25, ymin = 0.5, ymax = 1.125, fill="white") +
    annotate("text", x=6.75, y=1, colour="black", label="Best jump in up to 3 attempts") +
    annotate("text", x=6.75, y=.875, colour="black", label="42 athletes competed") +
    annotate("text", x=6.75, y=.75, colour="black", label="2 athletes had no legal jump") +
    annotate("text", x=6.75, y=.625, colour="black", label=paste("Skewness = ", roundedSkew))


# Results of the top twelve who qualified for the Final were closer to symmetric
skewness(longjump.df$distance[1:12])
# -0.1248782

# Results in the Final (some had 3 jumps, others 6) were only slightly negatively skewed
skewness(c(8.31, 8.16, 8.12, 8.11, 8.10, 8.07, 8.01, 7.93, 7.85, 7.80, 7.78, 7.70))
# -0.08578357

# Compare to Seoul 1988 Heptathlon
require(HSAUR)
skewness(heptathlon)

11

容易考试的成绩,或者学生特别有动机的考试成绩,往往会出现偏差。

结果,入读大学的学生的SAT / ACT分数(甚至更是他们的GPA)趋向于偏离。collegeapps.about.com上有很多示例,例如芝加哥大学SAT / ACT和GPA的图

类似地,毕业生的GPA通常是左偏的,例如,从Tim的Gramling的图5中获取的一家营利性大学的白人和黑人毕业生的GPA的直方图。“ 五个学生的特征如何准确预测营利性大学毕业几率。” SAGE Open 3.3(2013):2158244013497026。

GPA直方图显示负偏斜

(不难发现其他类似的例子。)


2
对于入门级统计课程,我认为该示例在教学法上效果很好-这是学生可能具有的真实生活经验,可以凭直觉进行推理并可以针对广泛使用的数据集进行确认的东西。
Silverfish 2014年

9

在随机边界分析中,尤其是在历史上最初的关注点中,生产是企业/生产单位的生产功能,通常随机指定为

q=FX+ü-w

qFXXüw由于计量经济学家可能不知道的原因,但他可以通过此设置进行度量。通常假定此随机变量遵循半正态或指数分布。假设一半正常(由于某种原因),我们有

üñ0σü2wHñ2πσ21个-2πσ22

σ2

ε=ü-w

Fεε=2s2ϕε/s2Φ-σ2σüε/s2s22=σü2+σ22

0s2-σ2σüϕΦσü=1个σ2=3在此处输入图片说明

因此,我想说,负偏度是人类自身努力的最自然的模型:总是偏离其想象的理想-在大多数情况下都落后于它(密度的负数),而在相对较少的情况下,超越其感知极限(密度的正部分)。学生本身可以被建模为这种生产功能。将对称干扰和单侧误差映射到现实生活的各个方面很简单。我无法想象一个人可以更直观地了解它。


1
这个答案似乎与@Glen_b关于研究生GPA的建议相呼应。针对一个难以捉摸的理想而充满动力的人类行为当然适合这种情况!一般而言,效率就是一个很好的例子。
Nick Stauner 2014年

2
@Nick Stauner这里的重点是我们认为“实际减去目标”是有符号的,而不是绝对值的“距离”。我们保持标志以便知道我们是高于还是低于目标。正如您所写的那样,直觉是“高度积极”的行为会使“实际”更接近“目标”,从而造成不对称。
Alecos Papadopoulos 2014年

1
@NickStauner实际上,Silverfish自己的跳远排位赛成绩还与“高度积极的行为”有关(考虑到人类目前作为非正式的“难以捉摸的理想”所能达到的极限)
Glen_b-恢复莫妮卡2015年

6

负偏度在洪水水文学中很常见。以下是洪水频率曲线的示例(Mulgoa Rd的South Creek,纬度-33.8783,lon 150.7683),我从“澳大利亚降雨和径流”(ARR)中获得,澳大利亚工程师开发了洪水估算指南。

ARR中有一条评论:

负偏斜(在澳大利亚洪水的对数值中很常见)使对数Pearson III分布具有上限。这为可以从分布中提取的洪水提供了上限。在某些情况下,这可能会导致估计低AEP的洪水时出现问题,但在实践中通常不会造成任何问题。[摘录自澳大利亚的降雨和径流-第1卷,第IV卷第2节。]

通常,在特定位置的洪水被认为有一个上限,称为“可能的最大洪水”(PMF)。有几种计算PMF的标准方法。

在此处输入图片说明


7
+1此示例很好地说明了问题的实质是多么随意:当以峰值流量衡量洪灾时,它们将呈偏,但以对数流量衡量,它们(显然)将呈负偏。类似地,任何正变量都可以以一种简单的方式重新表达,这种方式会使它的分布产生负偏斜(仅通过采用适当的负Box-Cox参数即可)。我想这全都归结为“容易掌握”的意思,但这是关于学生的问题,而不是统计问题。
ub

5

资产价格变化(回报)通常具有负偏斜-许多小价格上涨而一些大价格下跌。这种倾斜似乎适用于几乎所有类型的资产:股票价格,商品价格等。负倾斜可以在每月价格变化中观察到,但是当您开始查看每日或每小时价格变化时,这种倾斜就更加明显。我认为这将是一个很好的例子,因为您可以显示频率对偏斜的影响。

更多详细信息:http : //www.fusioninvesting.com/2010/09/what-is-skew-and-why-is-it-important/


我非常喜欢这个例子!是否有一种直观的解释方式-本质上,“下行冲击比上行冲击更有可能(至少,至少可能更严重)”?
Silverfish 2014年

2
@Silverfish我要说的是,极端负面的市场结果比极端正面的市场结果更有可能。市场也具有不对称的波动性。负收益后市场波动通常比正收益增加更多。通常使用Garch模型(例如GJR-Garch)进行建模(请参阅Arch Wikipedia条目)。
约翰

3
我还看到一个解释,说坏消息是成堆发布的。我没有用过GJR-GARCH。我尝试使用多重分形布朗运动(Mandelbrot)对不对称进行建模,但无法使其起作用。
wcampbell 2014年

4
这充其量只是简单化了。例如,我只获取了31个股指的每日收益数据集。其中一半以上具有正偏斜(使用Pearson偏度),而超过70%的正偏度为3 *(均值-中位数)/ stdev。对于大宗商品,您倾向于看到更正的偏斜,因为供需冲击都可以迅速推动价格上涨(例如,近年来的石油,天然气和玉米)。
克里斯·泰勒

5

分娩时的胎龄偏高(尤其是活产)。婴儿可以很早就出生(尽管过早地继续生存的机会很小),在36-41周之间达到高峰,并很快下降。在美国,女性通常会在41/42周时被诱使,因此在此之后我们通常看不到很多分娩。


4

在渔业中,由于法规要求,经常出现负偏斜的例子。例如休闲渔业中放养的鱼的长度分布;因为有时必须保留鱼的最小长度才能将其保留,因此将丢弃所有低于限制的鱼。但是,由于人们在合法长度的地方钓鱼,因此倾向于朝着法律上限的方向倾斜和倾斜。合法长度并不代表硬性规定。由于袋子的限制(或对可以带回码头的鱼的数量的限制),人们在捕获较大的鱼时仍会丢弃合法大小的鱼。

例如,Sauls,B.2012。墨西哥湾休闲渔业调查中关于红鲷鱼丢弃物的尺寸分布和释放状况的数据摘要。SEDAR31-DW11。SEDAR,北查尔斯顿,南卡罗来纳州。29页


通常,将“偏斜” 解释为偏斜,而不是“负偏斜”。也许您可以通过举例说明典型分布来澄清此答案?您所描述的机制-监管上限和某些可能超过的上限-可能导致负偏斜或正偏斜,具体取决于小型鱼的截短分布(并取决于鱼的测量方式:偏斜度)质量分布的偏差与长度分布的偏斜度不同)。
ub

3

在此线程上已提出了一些很棒的建议。以与年龄有关的死亡率为主题,机器故障率通常是机器年龄的函数,将属于此类分布。除了已经指出的财务因素外,财务损失的函数和分布通常类似于这些形状,尤其是在极端价值损失的情况下,例如BIS III(国际清算银行)对预期差额(ES)的估算,或在BIS II中,将风险价值(VAR)作为资本储备分配监管要求的输入。


2

美国的退休年龄受到不利影响。大多数退休人员年龄较大,而少数退休人员则相对年轻。


2

在随机矩阵理论中,Tracy Widom分布是右偏的。这是随机矩阵的最大特征值的分布。通过对称性,最小的特征值具有负的Tracy Widom分布,因此是左偏斜的。

这主要是由于以下事实:随机特征值类似于彼此排斥的带电粒子,因此最大特征值趋于远离其余特征。这是一张放大的图片(从此处拍摄):

在此处输入图片说明


右偏分布具有偏度,因此无法回答该问题。
ub

@whuber:打算使用最小的特征值。已更正。
亚历克斯R.18年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.